詳解python中urllib爬蟲模塊-創(chuàng)新互聯(lián)

小編這次要給大家分享的是詳解python中urllib爬蟲模塊,文章內(nèi)容豐富,感興趣的小伙伴可以來了解一下,希望大家閱讀完這篇文章之后能夠有所收獲。

創(chuàng)新互聯(lián)建站成立于2013年,我們提供高端網(wǎng)站建設(shè)公司、重慶網(wǎng)站制作成都網(wǎng)站設(shè)計(jì)、網(wǎng)站定制、成都全網(wǎng)營銷推廣、微信小程序、微信公眾號開發(fā)、seo優(yōu)化排名服務(wù),提供專業(yè)營銷思路、內(nèi)容策劃、視覺設(shè)計(jì)、程序開發(fā)來完成項(xiàng)目落地,為成都假山制作企業(yè)提供源源不斷的流量和訂單咨詢。

前言

網(wǎng)絡(luò)爬蟲也稱為網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人,抓取網(wǎng)絡(luò)的數(shù)據(jù)。其實(shí)就是用Python程序模仿人點(diǎn)擊瀏覽器并訪問網(wǎng)站,而且模仿的越逼真越好。一般爬取數(shù)據(jù)的目的主要是用來做數(shù)據(jù)分析,或者公司項(xiàng)目做數(shù)據(jù)測試,公司業(yè)務(wù)所需數(shù)據(jù)。

而數(shù)據(jù)來源可以來自于公司內(nèi)部數(shù)據(jù),第三方平臺購買的數(shù)據(jù),還可以通過網(wǎng)絡(luò)爬蟲爬取數(shù)據(jù)。python在網(wǎng)絡(luò)爬蟲方向上有著成熟的請求、解析模塊,以及強(qiáng)大的Scrapy網(wǎng)絡(luò)爬蟲框架。

爬蟲分類

1、通用網(wǎng)絡(luò)爬蟲:搜索引擎使用,遵守robots協(xié)議(君子協(xié)議)

robots協(xié)議 :網(wǎng)站通過robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。

2、聚焦網(wǎng)絡(luò)爬蟲 :自己寫的爬蟲程序

爬蟲爬取數(shù)據(jù)步驟

  • 確定需要爬取的URL地址
  • 由請求模塊向URL地址發(fā)出請求,并得到網(wǎng)站的響應(yīng)
  • 從響應(yīng)內(nèi)容中提取所需數(shù)據(jù)
    • 所需數(shù)據(jù),保存
    • 頁面中有其他需要繼續(xù)跟進(jìn)的URL地址,繼續(xù)第2步去發(fā)請求,如此循環(huán)

請求模塊

from urllib import request

request.urlopen()  向網(wǎng)站發(fā)起請求并獲取響應(yīng)對象

參數(shù):

URL:需要爬取的URL地址

timeout: 設(shè)置等待超時(shí)時(shí)間,指定時(shí)間內(nèi)未得到響應(yīng)拋出超時(shí)異常

響應(yīng)對象(response)方法

  • string = response.read().decode('utf-8') 獲取響應(yīng)對象內(nèi)容(網(wǎng)頁源代碼),返回內(nèi)容為字節(jié)串bytes類型,順便需要decode轉(zhuǎn)換成string。
  • url = response.geturl() 返回實(shí)際數(shù)據(jù)的URL地址
  • code = response.getcode() 返回HTTP響應(yīng)碼
from urllib import request
url = 'http://www.baidu.com/'

# 向百度發(fā)請求,得到響應(yīng)對象
response = request.urlopen(url)

# 返回網(wǎng)頁源代碼
print(response.read().decode('utf-8'))

# 返回http響應(yīng)碼
print(response.getcode())    # 200
# 返回實(shí)際數(shù)據(jù)URL地址
print(response.geturl())    # http://www.baidu.com/

分享名稱:詳解python中urllib爬蟲模塊-創(chuàng)新互聯(lián)
瀏覽地址:http://www.muchs.cn/article20/dgigco.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供靜態(tài)網(wǎng)站網(wǎng)站導(dǎo)航、企業(yè)建站、電子商務(wù)、品牌網(wǎng)站制作App設(shè)計(jì)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都做網(wǎng)站