崗位職責(zé):
1、負責(zé)全球公開新聞資訊站點、論壇、社交等公開數(shù)據(jù)的智能化采集與獲取,應(yīng)對大規(guī)模文本、圖像、視頻數(shù)據(jù)的采集、抽取,去重、分類,垃圾過濾,質(zhì)量識別、解析入庫等工作;
2、負責(zé)各種開源網(wǎng)絡(luò)數(shù)據(jù)的基本挖掘分析,參與數(shù)據(jù)服務(wù)產(chǎn)品研發(fā);
3、負責(zé)爬蟲技術(shù)與反爬技術(shù)研究,快速響應(yīng)業(yè)務(wù)需求。
任職要求:
1、具有3年以上實際網(wǎng)絡(luò)爬蟲或分布式數(shù)據(jù)采集開發(fā)工作經(jīng)驗;
2、精通熟悉爬蟲原理及優(yōu)化技術(shù),熟悉主流爬蟲框架使用;熟悉常見的反爬機制及應(yīng)對策略,包括但不限于使用代理IP,驗證碼智能識別,動態(tài)JS數(shù)據(jù)解析等;
3、熟悉各類應(yīng)用網(wǎng)絡(luò)協(xié)議知識,基本網(wǎng)絡(luò)協(xié)議分析,熟悉基于Phantomjs、Headless、Selenium等無界面瀏覽器自動化交互采集技術(shù);
4、對數(shù)據(jù)結(jié)構(gòu)和算法設(shè)計有較為深刻的理解;
5、具有較強的編程能力,具備良好的編程習(xí)慣,能夠編寫高質(zhì)量技術(shù)文檔;
6、具有構(gòu)建分布式爬蟲系統(tǒng)的經(jīng)驗,具有海量高并發(fā)網(wǎng)頁爬取項目經(jīng)驗優(yōu)先;
7、具備信息檢索、Web挖掘等搜索引擎相關(guān)知識,有從事網(wǎng)絡(luò)爬蟲、網(wǎng)頁去重、網(wǎng)頁信息抽取、網(wǎng)頁分類的中任一種程序開發(fā)經(jīng)驗者優(yōu)先;
8、對自然語言處理技術(shù)熟悉者優(yōu)先;具備機器學(xué)習(xí)、數(shù)據(jù)挖掘經(jīng)驗或深度學(xué)習(xí)基礎(chǔ)經(jīng)驗者優(yōu)先。
上海 - 浦東
上海飛旗網(wǎng)絡(luò)技術(shù)股份有限公司上海 - 黃浦
上海市弘安律師事務(wù)所上海 - 浦東
上海張江數(shù)學(xué)研究院上海 - 浦東
首聘(北京)科技有限公司上海 - 黃浦
北京小確信安全防范科技有限公司