更新于 6月28日

GPU云工程師(全棧式)

2萬-3萬·15薪
  • 北京朝陽區(qū)
  • 5-10年
  • 本科
  • 全職
  • 招1人

職位描述

全棧PythonGoLang
工作職責(zé):
1.參與設(shè)計(jì)和開發(fā)智算產(chǎn)品,包括組件設(shè)計(jì)、開發(fā)、測試、上線等,搭建日志、監(jiān)控、報(bào)警、鏈路跟蹤等基礎(chǔ)運(yùn)維系統(tǒng);
2.參與制定并執(zhí)行運(yùn)維流程、規(guī)范和標(biāo)準(zhǔn)化措施,提高運(yùn)維效率,降低故障率; 3.與供應(yīng)商協(xié)同,搭建和運(yùn)維智算平臺,包括云管、服務(wù)器、網(wǎng)絡(luò)、存儲等各個子系統(tǒng);
4.診斷和解決客戶問題,線上環(huán)境的維護(hù),監(jiān)控,調(diào)優(yōu),和故障定位,特別是在GPU密集型應(yīng)用和高性能計(jì)算場景下,確保系統(tǒng)快速恢復(fù)正常運(yùn)行;
任職資格:
1.本科及以上學(xué)歷,3~5年工作經(jīng)驗(yàn);
2.熟悉常用的Linux操作系統(tǒng),了解分布式系統(tǒng)的基礎(chǔ)架構(gòu)理論,如微服務(wù)和容器化等;
3.對云計(jì)算中計(jì)算、存儲、網(wǎng)絡(luò)、云管等一個或多個領(lǐng)域有比較深入的了解;
4.熟練掌握Go、Python等語言;
5.有云平臺、GPU集群管理平臺的研發(fā)運(yùn)維經(jīng)驗(yàn),備大規(guī)模系統(tǒng)監(jiān)控運(yùn)維經(jīng)驗(yàn),熟悉kubernetes、Prometheus、Grafana、ELK、Loki等優(yōu)先;
6.熟悉GPU、AI、3D渲染中的一個或多個領(lǐng)域者優(yōu)先;
7.加分項(xiàng):
- 有大規(guī)模分布式系統(tǒng)或云計(jì)算平臺運(yùn)維開發(fā)的經(jīng)驗(yàn)
- 有深度學(xué)習(xí)、大模型訓(xùn)練、推理運(yùn)維、故障處理和穩(wěn)定性保障的經(jīng)驗(yàn)
- 有系統(tǒng)化開發(fā)運(yùn)維保障平臺的經(jīng)驗(yàn)

工作地點(diǎn)

啟明國際大廈

職位發(fā)布者

李墨/人事經(jīng)理

立即溝通
公司Logo北京數(shù)道智算科技有限公司
北京數(shù)道智算科技有限公司作為一家提供智能算力服務(wù)的企業(yè),成立于2023年9月21日,注冊資金13684.2105萬元人民幣,由廣東中關(guān)村協(xié)同智算股權(quán)投資合伙企業(yè)(有限合伙)、摩爾線程智能科技(北京)有限責(zé)任公司、北京智譜華章科技有限公司等共同持股組建。公司致力于以算力基礎(chǔ)設(shè)施需求為驅(qū)動,為上下游企業(yè)技術(shù)與應(yīng)用創(chuàng)新賦能,助推區(qū)域產(chǎn)業(yè)轉(zhuǎn)型升級。業(yè)務(wù)涵蓋算力建設(shè)、算力平臺研發(fā)和全棧算力服務(wù)。為AI、元宇宙、數(shù)字仿真等新興數(shù)字經(jīng)濟(jì)的企業(yè)提供全方位的算力支撐。
公司主頁