国产亚洲免费观看,av看片在线,长河落日电视连续剧免费观看01

爬蟲介紹

image

這是一個采集程序，不需要登錄，根據(jù)企業(yè)名稱抓取企業(yè)頁面數(shù)據(jù)。

注：這是一個比較簡單的爬蟲，基本上只使用代理，不使用其他反爬技術(shù)。但是由于爬取的數(shù)據(jù)量較大，適合刷解析技能的熟練程度，所以高手不要輸入

代碼已經(jīng)上傳到GitHub有用請給我一個star

python版本: python2.7

編碼工具: pycharm

數(shù)據(jù)存儲: MySQL

crawler結(jié)構(gòu):廣度crawler

iamge

先獲取需要采集信息的公司：
1. get from database
2. get field:etid，etname
3. get data from state table of The acquired data storage。并更新狀態(tài)表
4. 拼接etname和初始url獲取初始url
拼接初始URL：
1. 將初始url放在一個列表中，如何在獲取HTML時出錯，將錯誤的url放在另一個列表中，進行循環(huán)采集
2. 驗證查詢的公司是否正確(？)
請求解析初始一級頁面：
1. 將二級url放在一個列表中，獲取HTML時如何出錯，將錯誤的url放在另一個列表中，循環(huán)獲取
2. 將二級url放在一個列表中，獲取HTML時如何出錯，將錯誤的url放在另一個列表中，循環(huán)獲取
3. 獲取待確定的信息
請求解析二級頁面：
1. 創(chuàng)建表
將公司的信息存儲到數(shù)據(jù)庫中：
1. 創(chuàng)建表：
2. 創(chuàng)建表：

iamge

iamge