崗位職責(zé):
1、負(fù)責(zé)智算實驗室集群和K8S容器集群管理平臺的部署、優(yōu)化、監(jiān)控、日常問題的跟蹤處理及相關(guān)業(yè)務(wù)支撐;
2、負(fù)責(zé)持續(xù)集成(CI)、持續(xù)交付(CD)和各項目DevOps的設(shè)計規(guī)劃和推動;
3、配合業(yè)務(wù)進(jìn)行實驗室資源的預(yù)定、用戶權(quán)限配置等日常業(yè)務(wù)操作;
4、日常運維自動化腳本開發(fā)和維護(hù);
5、負(fù)責(zé)集群日志的定期采集和導(dǎo)出,支撐運營看板的可視化分析。
崗位要求:
1、計算機通信或相關(guān)專業(yè)本科以上學(xué)歷,5年以上DevOps/運維/開發(fā)工作經(jīng)驗,至少3年以上大型傳統(tǒng)/互聯(lián)網(wǎng)業(yè)務(wù)運維經(jīng)驗;
2、精通云原生K8S、Docker架構(gòu)技術(shù)體系,K8S集群的搭建和cubectl命令;
3、精通Linux命令,懂歐拉操作系統(tǒng)的優(yōu)先考慮;
4、精通shell腳本的編寫、熟悉Python腳本,有Go語言或者Java經(jīng)驗更佳;
5、熟悉ansible、puppet、saltstack等自動化運維工具的使用;
6、精通Nginx、HaProxy、Jupyter、Tomcat、MySQL、Redis、Zookeeper、kafka、Jenkins、Prometheus、Zabbix、ELK等的部署、日常維護(hù)與優(yōu)化;
7、熟悉AI開源大模型在國內(nèi)外各云計算服務(wù)平臺的訓(xùn)練和推理實踐,如華為云、AWS、阿里云、騰訊云;
8、具有較強的動手實踐能力、良好的溝通、團(tuán)隊協(xié)作精神,具備一定的抗壓能力,善于應(yīng)對來自工作上的各種壓力,能在壓力下獨立解決問題。