記一次不太成功的爬取dingtalk上的企業(yè)的信息

首先打開這個鏈接https://www.dingtalk.com/qiye/1.html，可以網(wǎng)頁列出了很多企業(yè)，點(diǎn)擊企業(yè)，就看到了企業(yè)的信息。
記一次不太成功的爬取dingtalk上的企業(yè)的信息
所以，我們的思路就很明確了，通過https://www.dingtalk.com/qiye/1.html這個入口鏈接獲取企業(yè)的URL，然后通過訪問企業(yè)的URL獲取企業(yè)的信息。在jupyter notebook中試一下。

企業(yè)的URL已經(jīng)獲取到了，然后再訪問企業(yè)的URL，看看能否獲取到企業(yè)的信息。
沒有。
寫請求頭，請求頭包含兩項(xiàng)，一個是cookie，一個user-agent。加上請求頭再試試看，有了。
記一次不太成功的爬取dingtalk上的企業(yè)的信息
發(fā)現(xiàn)企業(yè)信息在js代碼里，寫正則表達(dá)式

創(chuàng)新互聯(lián)公司服務(wù)電話：18980820575，為您提供成都網(wǎng)站建設(shè)網(wǎng)頁設(shè)計及定制高端網(wǎng)站建設(shè)服務(wù)，創(chuàng)新互聯(lián)公司網(wǎng)頁制作領(lǐng)域十載，包括護(hù)欄打樁機(jī)等多個行業(yè)擁有豐富的網(wǎng)站制作經(jīng)驗(yàn)，選擇創(chuàng)新互聯(lián)公司，為網(wǎng)站保駕護(hù)航。

patterns = r'"businessInfoData":{"enterpriseName":"(.*?)","frName":"(.*?)","enterpriseType":"(.*?)","enterpriseStatus":"(.*?)","regCap":"(.*?)","regCapCur":"(.*?)","esDate":"(.*?)","regOrg":"(.*?)","operateScope":"(.*?)","address":"(.*?)","regNo":"(.*?)","creditCode":"(.*?)","region":"(.*?)"}'
results = re.findall(patterns, html)

ok，成功匹配出來
記一次不太成功的爬取dingtalk上的企業(yè)的信息
到此，發(fā)現(xiàn)很簡單了，立馬就把代碼給寫了出來，但發(fā)現(xiàn)一些問題，只有一部分企業(yè)的信息爬取了出來，大部分企業(yè)信息都獲取失敗了。這是咋回事呢，原來啊，有的企業(yè)URL源碼里有企業(yè)信息，而有的沒有。
記一次不太成功的爬取dingtalk上的企業(yè)的信息

然后，我查看完整企業(yè)信息，發(fā)現(xiàn)這個

但是，我無法構(gòu)造這個鏈接，憂傷。
所以，整個爬蟲到此為止。寫代碼的時候，原本想用入口鏈接不斷下一頁獲取所有企業(yè)URL，但一想，算了吧，直接簡單粗暴一點(diǎn)。然后呢，爬取的時候，爬取速度好慢。
最后，附上垃圾的源碼github。

分享標(biāo)題：記一次不太成功的爬取dingtalk上的企業(yè)的信息
網(wǎng)頁地址：http://muchs.cn/article36/ghodsg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站收錄、品牌網(wǎng)站建設(shè)、網(wǎng)站營銷、網(wǎng)站設(shè)計、網(wǎng)站維護(hù)、網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容