工作職責(zé):
1.參與設(shè)計(jì)和開發(fā)智算產(chǎn)品,包括組件設(shè)計(jì)、開發(fā)、測試、上線等,搭建日志、監(jiān)控、報(bào)警、鏈路跟蹤等基礎(chǔ)運(yùn)維系統(tǒng);
2.參與制定并執(zhí)行運(yùn)維流程、規(guī)范和標(biāo)準(zhǔn)化措施,提高運(yùn)維效率,降低故障率; 3.與供應(yīng)商協(xié)同,搭建和運(yùn)維智算平臺,包括云管、服務(wù)器、網(wǎng)絡(luò)、存儲等各個子系統(tǒng);
4.診斷和解決客戶問題,線上環(huán)境的維護(hù),監(jiān)控,調(diào)優(yōu),和故障定位,特別是在GPU密集型應(yīng)用和高性能計(jì)算場景下,確保系統(tǒng)快速恢復(fù)正常運(yùn)行;
任職資格:
1.本科及以上學(xué)歷,3~5年工作經(jīng)驗(yàn);
2.熟悉常用的Linux操作系統(tǒng),了解分布式系統(tǒng)的基礎(chǔ)架構(gòu)理論,如微服務(wù)和容器化等;
3.對云計(jì)算中計(jì)算、存儲、網(wǎng)絡(luò)、云管等一個或多個領(lǐng)域有比較深入的了解;
4.熟練掌握Go、Python等語言;
5.有云平臺、GPU集群管理平臺的研發(fā)運(yùn)維經(jīng)驗(yàn),備大規(guī)模系統(tǒng)監(jiān)控運(yùn)維經(jīng)驗(yàn),熟悉kubernetes、Prometheus、Grafana、ELK、Loki等優(yōu)先;
6.熟悉GPU、AI、3D渲染中的一個或多個領(lǐng)域者優(yōu)先;
7.加分項(xiàng):
- 有大規(guī)模分布式系統(tǒng)或云計(jì)算平臺運(yùn)維開發(fā)的經(jīng)驗(yàn)
- 有深度學(xué)習(xí)、大模型訓(xùn)練、推理運(yùn)維、故障處理和穩(wěn)定性保障的經(jīng)驗(yàn)
- 有系統(tǒng)化開發(fā)運(yùn)維保障平臺的經(jīng)驗(yàn)