更新于 12月25日

數(shù)據(jù)爬取和治理工程師

1.5萬-2萬
  • 上海浦東新區(qū)
  • 3-5年
  • 本科
  • 全職
  • 招1人

職位描述

數(shù)據(jù)采集爬蟲開發(fā)數(shù)據(jù)清洗

崗位職責(zé):

1、負責(zé)全球公開新聞資訊站點、論壇、社交等公開數(shù)據(jù)的智能化采集與獲取,應(yīng)對大規(guī)模文本、圖像、視頻數(shù)據(jù)的采集、抽取,去重、分類,垃圾過濾,質(zhì)量識別、解析入庫等工作;

2、負責(zé)各種開源網(wǎng)絡(luò)數(shù)據(jù)的基本挖掘分析,參與數(shù)據(jù)服務(wù)產(chǎn)品研發(fā);

3、負責(zé)爬蟲技術(shù)與反爬技術(shù)研究,快速響應(yīng)業(yè)務(wù)需求。

任職要求:

1、具有3年以上實際網(wǎng)絡(luò)爬蟲或分布式數(shù)據(jù)采集開發(fā)工作經(jīng)驗;

2、精通熟悉爬蟲原理及優(yōu)化技術(shù),熟悉主流爬蟲框架使用;熟悉常見的反爬機制及應(yīng)對策略,包括但不限于使用代理IP,驗證碼智能識別,動態(tài)JS數(shù)據(jù)解析等;

3、熟悉各類應(yīng)用網(wǎng)絡(luò)協(xié)議知識,基本網(wǎng)絡(luò)協(xié)議分析,熟悉基于Phantomjs、Headless、Selenium等無界面瀏覽器自動化交互采集技術(shù);

4、對數(shù)據(jù)結(jié)構(gòu)和算法設(shè)計有較為深刻的理解;

5、具有較強的編程能力,具備良好的編程習(xí)慣,能夠編寫高質(zhì)量技術(shù)文檔;

6、具有構(gòu)建分布式爬蟲系統(tǒng)的經(jīng)驗,具有海量高并發(fā)網(wǎng)頁爬取項目經(jīng)驗優(yōu)先;

7、具備信息檢索、Web挖掘等搜索引擎相關(guān)知識,有從事網(wǎng)絡(luò)爬蟲、網(wǎng)頁去重、網(wǎng)頁信息抽取、網(wǎng)頁分類的中任一種程序開發(fā)經(jīng)驗者優(yōu)先;

8、對自然語言處理技術(shù)熟悉者優(yōu)先;具備機器學(xué)習(xí)、數(shù)據(jù)挖掘經(jīng)驗或深度學(xué)習(xí)基礎(chǔ)經(jīng)驗者優(yōu)先。

工作地點

張江國創(chuàng)中心1期

職位發(fā)布者

呂先生/HR

昨日活躍
立即溝通
公司Logo上海張江數(shù)學(xué)研究院
上海張江數(shù)學(xué)研究院(以下簡稱“數(shù)學(xué)院”)是事業(yè)單位性質(zhì)的新型科研機構(gòu)。數(shù)學(xué)院聚焦“數(shù)學(xué)+”,開展相關(guān)領(lǐng)域人才培養(yǎng)、科學(xué)研究、成果轉(zhuǎn)化、產(chǎn)業(yè)化等。支撐上海國際科技創(chuàng)新中心、張江綜合性國家科學(xué)中心和張江國家實驗室建設(shè),助推浦東新區(qū)高水平改革開放,打造社會主義現(xiàn)代化引領(lǐng)區(qū)建設(shè),努力建設(shè)成為數(shù)學(xué)服務(wù)國家重大戰(zhàn)略任務(wù)的國家隊。
公司主頁