崗位職責:
1.熟悉安裝和配置GPU服務(wù)器上的系統(tǒng)和驅(qū)動程序,能夠海量部署服務(wù)器,確保其正常運行并達到性能標準;
2.熟悉nvidia相關(guān)驅(qū)動的安裝及調(diào)試,能夠解決相關(guān)問題;
3.能夠獨立處理各種應(yīng)用場景的解決方案,協(xié)助終端客戶完成產(chǎn)品驗收、物理檢查、系統(tǒng)檢測等;
4.維護和優(yōu)化GPU服務(wù)器,確保服務(wù)器高效運行;
5.實施GPU集群的搭建及管理,集群性能的壓測,集群方案的制訂及優(yōu)化。
6.對浪潮、超聚變、英偉達模組等較精通。
任職資格:
1.計算機科學、電子工程或相關(guān)專業(yè)本科及以上學歷;
2.熟悉英偉達GPU服務(wù)器,具備豐富的GPU服務(wù)器集群部署經(jīng)驗;
3.熟悉cuda架構(gòu),熟悉至少一種訓練框架,對RDMA網(wǎng)絡(luò)有一定的了解;
4.大數(shù)據(jù)中心工作經(jīng)驗者優(yōu)先。