詳解python中urllib爬蟲模塊-創(chuàng)新互聯(lián)

小編這次要給大家分享的是詳解python中urllib爬蟲模塊，文章內(nèi)容豐富，感興趣的小伙伴可以來了解一下，希望大家閱讀完這篇文章之后能夠有所收獲。

創(chuàng)新互聯(lián)建站成立于2013年，我們提供高端網(wǎng)站建設(shè)公司、重慶網(wǎng)站制作、成都網(wǎng)站設(shè)計(jì)、網(wǎng)站定制、成都全網(wǎng)營銷推廣、微信小程序、微信公眾號開發(fā)、seo優(yōu)化排名服務(wù)，提供專業(yè)營銷思路、內(nèi)容策劃、視覺設(shè)計(jì)、程序開發(fā)來完成項(xiàng)目落地，為成都假山制作企業(yè)提供源源不斷的流量和訂單咨詢。

前言

網(wǎng)絡(luò)爬蟲也稱為網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人，抓取網(wǎng)絡(luò)的數(shù)據(jù)。其實(shí)就是用Python程序模仿人點(diǎn)擊瀏覽器并訪問網(wǎng)站，而且模仿的越逼真越好。一般爬取數(shù)據(jù)的目的主要是用來做數(shù)據(jù)分析，或者公司項(xiàng)目做數(shù)據(jù)測試，公司業(yè)務(wù)所需數(shù)據(jù)。

而數(shù)據(jù)來源可以來自于公司內(nèi)部數(shù)據(jù)，第三方平臺購買的數(shù)據(jù)，還可以通過網(wǎng)絡(luò)爬蟲爬取數(shù)據(jù)。python在網(wǎng)絡(luò)爬蟲方向上有著成熟的請求、解析模塊，以及強(qiáng)大的Scrapy網(wǎng)絡(luò)爬蟲框架。

爬蟲分類

1、通用網(wǎng)絡(luò)爬蟲：搜索引擎使用，遵守robots協(xié)議（君子協(xié)議）

robots協(xié)議：網(wǎng)站通過robots協(xié)議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。

2、聚焦網(wǎng)絡(luò)爬蟲：自己寫的爬蟲程序

爬蟲爬取數(shù)據(jù)步驟

確定需要爬取的URL地址
由請求模塊向URL地址發(fā)出請求，并得到網(wǎng)站的響應(yīng)
從響應(yīng)內(nèi)容中提取所需數(shù)據(jù)
- 所需數(shù)據(jù)，保存
- 頁面中有其他需要繼續(xù)跟進(jìn)的URL地址，繼續(xù)第2步去發(fā)請求，如此循環(huán)

請求模塊

from urllib import request

request.urlopen()　　向網(wǎng)站發(fā)起請求并獲取響應(yīng)對象

參數(shù)：

URL：需要爬取的URL地址

timeout: 設(shè)置等待超時(shí)時(shí)間，指定時(shí)間內(nèi)未得到響應(yīng)拋出超時(shí)異常

響應(yīng)對象（response）方法

string = response.read().decode('utf-8') 獲取響應(yīng)對象內(nèi)容(網(wǎng)頁源代碼)，返回內(nèi)容為字節(jié)串bytes類型，順便需要decode轉(zhuǎn)換成string。
url = response.geturl() 返回實(shí)際數(shù)據(jù)的URL地址
code = response.getcode() 返回HTTP響應(yīng)碼

from urllib import request
url = 'http://www.baidu.com/'

# 向百度發(fā)請求,得到響應(yīng)對象
response = request.urlopen(url)

# 返回網(wǎng)頁源代碼
print(response.read().decode('utf-8'))

# 返回http響應(yīng)碼
print(response.getcode())    # 200
# 返回實(shí)際數(shù)據(jù)URL地址
print(response.geturl())    # http://www.baidu.com/

分享名稱：詳解python中urllib爬蟲模塊-創(chuàng)新互聯(lián)
瀏覽地址：http://www.muchs.cn/article20/dgigco.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供靜態(tài)網(wǎng)站、網(wǎng)站導(dǎo)航、企業(yè)建站、電子商務(wù)、品牌網(wǎng)站制作、App設(shè)計(jì)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容