小編這次要給大家分享的是詳解python中urllib爬蟲模塊,文章內(nèi)容豐富,感興趣的小伙伴可以來了解一下,希望大家閱讀完這篇文章之后能夠有所收獲。
創(chuàng)新互聯(lián)建站成立于2013年,我們提供高端網(wǎng)站建設(shè)公司、重慶網(wǎng)站制作、成都網(wǎng)站設(shè)計(jì)、網(wǎng)站定制、成都全網(wǎng)營銷推廣、微信小程序、微信公眾號開發(fā)、seo優(yōu)化排名服務(wù),提供專業(yè)營銷思路、內(nèi)容策劃、視覺設(shè)計(jì)、程序開發(fā)來完成項(xiàng)目落地,為成都假山制作企業(yè)提供源源不斷的流量和訂單咨詢。前言
網(wǎng)絡(luò)爬蟲也稱為網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人,抓取網(wǎng)絡(luò)的數(shù)據(jù)。其實(shí)就是用Python程序模仿人點(diǎn)擊瀏覽器并訪問網(wǎng)站,而且模仿的越逼真越好。一般爬取數(shù)據(jù)的目的主要是用來做數(shù)據(jù)分析,或者公司項(xiàng)目做數(shù)據(jù)測試,公司業(yè)務(wù)所需數(shù)據(jù)。
而數(shù)據(jù)來源可以來自于公司內(nèi)部數(shù)據(jù),第三方平臺購買的數(shù)據(jù),還可以通過網(wǎng)絡(luò)爬蟲爬取數(shù)據(jù)。python在網(wǎng)絡(luò)爬蟲方向上有著成熟的請求、解析模塊,以及強(qiáng)大的Scrapy網(wǎng)絡(luò)爬蟲框架。
爬蟲分類
1、通用網(wǎng)絡(luò)爬蟲:搜索引擎使用,遵守robots協(xié)議(君子協(xié)議)
robots協(xié)議 :網(wǎng)站通過robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
2、聚焦網(wǎng)絡(luò)爬蟲 :自己寫的爬蟲程序
爬蟲爬取數(shù)據(jù)步驟
請求模塊
from urllib import request
request.urlopen() 向網(wǎng)站發(fā)起請求并獲取響應(yīng)對象
參數(shù):
URL:需要爬取的URL地址
timeout: 設(shè)置等待超時(shí)時(shí)間,指定時(shí)間內(nèi)未得到響應(yīng)拋出超時(shí)異常
響應(yīng)對象(response)方法
from urllib import request url = 'http://www.baidu.com/' # 向百度發(fā)請求,得到響應(yīng)對象 response = request.urlopen(url) # 返回網(wǎng)頁源代碼 print(response.read().decode('utf-8')) # 返回http響應(yīng)碼 print(response.getcode()) # 200 # 返回實(shí)際數(shù)據(jù)URL地址 print(response.geturl()) # http://www.baidu.com/
分享名稱:詳解python中urllib爬蟲模塊-創(chuàng)新互聯(lián)
瀏覽地址:http://www.muchs.cn/article20/dgigco.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供靜態(tài)網(wǎng)站、網(wǎng)站導(dǎo)航、企業(yè)建站、電子商務(wù)、品牌網(wǎng)站制作、App設(shè)計(jì)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容