爬蟲介紹
image
這是一個采集程序,不需要登錄,根據(jù)企業(yè)名稱抓取企業(yè)頁面數(shù)據(jù)。
注:這是一個比較簡單的爬蟲,基本上只使用代理,不使用其他反爬技術(shù)。但是由于爬取的數(shù)據(jù)量較大,適合刷解析技能的熟練程度,所以高手不要輸入
代碼已經(jīng)上傳到GitHub有用請給我一個star
python版本: python2.7
編碼工具: pycharm
數(shù)據(jù)存儲: MySQL
crawler結(jié)構(gòu):廣度crawler
crawler idea:
iamge
- 先獲取需要采集信息的公司:
- get from database
- get field:etid,etname
- get data from state table of The acquired data storage。并更新狀態(tài)表
- 拼接etname和初始url獲取初始url
- 拼接初始URL:
- 將初始url放在一個列表中,如何在獲取HTML時出錯,將錯誤的url放在另一個列表中,進行循環(huán)采集
- 驗證查詢的公司是否正確(?)
- 請求解析初始一級頁面:
- 將二級url放在一個列表中,獲取HTML時如何出錯,將錯誤的url放在另一個列表中,循環(huán)獲取
- 將二級url放在一個列表中,獲取HTML時如何出錯,將錯誤的url放在另一個列表中,循環(huán)獲取
- 獲取待確定的信息
- 請求解析二級頁面:
- 創(chuàng)建表
- 將公司的信息存儲到數(shù)據(jù)庫中:
- 創(chuàng)建表:
- 創(chuàng)建表:
企業(yè)主信息:et_host_info
iamge
- 工商信息:et_busi_info
- 分公司信息:et_branch_office
- 軟件版權(quán)信息:et_container_copyright_info
- 網(wǎng)站記錄信息:et _ convainer _ ICP _ info
- 外商投資信息:et_foreign_investment_info
- 融資
- 融資信息: et_rongzi_info
- 股東信息: et_stareholder_info
- 商標(biāo)信息: et_trademark_info
- 狀態(tài)表: et_name_status
看一下部分的結(jié)果圖:
iamge
iamge
iamge
iamge