職位描述:
(1)大數(shù)據(jù)開發(fā)
1、負責大數(shù)據(jù)離線開發(fā),使用Sqoop等組件開發(fā)每日離線數(shù)據(jù)采集任務,使用Hive/Spark SQL編寫ETL作業(yè)過程,處理各種復雜的業(yè)務邏輯,根據(jù)業(yè)務邏輯配置合理的調度順序;
2、負責大數(shù)據(jù)實時開發(fā),使用Flink/Spark實時計算引擎開發(fā)實時流作業(yè),讀取接口/文本/數(shù)據(jù)庫日志/消息隊列中間件等數(shù)據(jù)源,經(jīng)過業(yè)務邏輯加工處理后寫入大數(shù)據(jù)平臺;
3、保障數(shù)據(jù)產出時效穩(wěn)定,每天監(jiān)控數(shù)據(jù)產出時間,采取調度鏈路優(yōu)化,作業(yè)優(yōu)化,SQL優(yōu)化等手段,提升數(shù)據(jù)產出效率。
(2)集團數(shù)據(jù)資產建設
1、根據(jù)各個業(yè)務領域項目推進過程中沉淀的數(shù)據(jù)分析體系,維護成可方便檢索,查找和應用的數(shù)據(jù)資產,包含業(yè)務口徑,出數(shù)頻率,數(shù)據(jù)樣例等關鍵業(yè)務和技術元數(shù)據(jù);
2、根據(jù)數(shù)據(jù)分析師提供的數(shù)據(jù)質量規(guī)則,開發(fā)相應的數(shù)據(jù)校驗程序,確保跑數(shù)完成后即刻校驗,確保高質量的數(shù)據(jù)資產;
3、生成相應的數(shù)據(jù)服務接口,可供前端應用,BI工具和業(yè)務系統(tǒng)調用。
(3)數(shù)據(jù)倉庫模型設計
1、根據(jù)業(yè)務領域數(shù)據(jù)特征以及維度建模的方法,橫向劃分數(shù)據(jù)倉庫分析主題域,縱向劃分層次,達成數(shù)據(jù)重復利用率高且能快速開發(fā)數(shù)據(jù)需求的目的;
2、定義各個數(shù)倉分層,考慮數(shù)據(jù)寫入和查詢的性能,提升作業(yè)的運行速度,報表查詢數(shù)據(jù)時的高復用性和易擴展性;
3、通過合理的數(shù)據(jù)模型設計,提高數(shù)據(jù)的查詢性能和分析效率,降低維護成本。
(4)制定規(guī)范
1、制定公司數(shù)據(jù)倉庫架構設計原則,輸出數(shù)據(jù)倉庫模型設計的基本原則;
2、制定公司數(shù)據(jù)開發(fā)的開發(fā)規(guī)范。
職位要求:
(1)教育程度:
本科畢業(yè)3年以上,計算機,信息工程,數(shù)學等相關專業(yè)畢業(yè);
(2)相關經(jīng)驗:
具有3年以上大數(shù)據(jù)開發(fā)相關經(jīng)驗;
(3)專業(yè)能力:
1.具備數(shù)據(jù)倉庫架構和設計能力,熟悉維度建模的方法;
2.良好的溝通和邏輯思維能力,能夠對業(yè)務需求進行抽象并據(jù)此進行架構設計;
3.有過數(shù)據(jù)資產目錄建設和維護的經(jīng)驗;
4.熟悉大數(shù)據(jù)離線和實時開發(fā)使用的組件,Hive、Spark、Flink等,熟悉分布式計算和存儲的相關原理及高可用機制原理,并可獨立排查故障問題;
5.熟練使用Dataworks,DolphiScheduler,kettle或其它數(shù)據(jù)開發(fā)工具中的一種;
6.熟悉SQL的執(zhí)行原理,具備優(yōu)化復雜SQL的能力;
7.掌握shell,python,java等編程語言中的一種;
8.具有很好的溝通表達能力,勤奮好學,具有很好的團隊合作意識。