1.獲取數(shù)據(jù)-requests.get()-創(chuàng)新互聯(lián)

1、爬蟲的工作原理

讓客戶滿意是我們工作的目標(biāo),不斷超越客戶的期望值來自于我們對(duì)這個(gè)行業(yè)的熱愛。我們立志把好的技術(shù)通過有效、簡單的方式提供給客戶,將通過不懈努力成為客戶在信息化領(lǐng)域值得信任、有價(jià)值的長期合作伙伴,公司提供的服務(wù)項(xiàng)目有:域名與空間、網(wǎng)頁空間、營銷軟件、網(wǎng)站建設(shè)、綏德網(wǎng)站維護(hù)、網(wǎng)站推廣。

獲取數(shù)據(jù)--解析數(shù)據(jù)--提取數(shù)據(jù)--存儲(chǔ)數(shù)據(jù)

2、獲取數(shù)據(jù)

本質(zhì)就是通過URL去向服務(wù)器發(fā)出請(qǐng)求,服務(wù)器再把相關(guān)內(nèi)容封裝成一個(gè)Response對(duì)象返回給我們,這是通過requests.get()實(shí)現(xiàn)的。而我們獲取到的Response對(duì)象下有四個(gè)常用的方法(status_code、content、text、encoding)。

3、requests.get()

import requests? #引入requests模塊

res = requests.get('url')? ?# 向服務(wù)器請(qǐng)求數(shù)據(jù),服務(wù)器返回的結(jié)果是個(gè)Response對(duì)象

print(type(res)) # 終端顯示:

這代表著res是一個(gè)對(duì)象,屬于requests.models.Response類。

3、response.status_code?

用法:print(變量.status_code),

用來檢查請(qǐng)求是否正確響應(yīng),如果響應(yīng)狀態(tài)碼為200,即代表請(qǐng)求成功。

響應(yīng)狀態(tài)碼表示服務(wù)器對(duì)請(qǐng)求的響應(yīng)結(jié)果。例如,200代表服務(wù)器響應(yīng)成功,403代表禁止訪問,404代表頁面未找到,408代表請(qǐng)求超時(shí)。瀏覽器會(huì)根據(jù)狀態(tài)碼做出相應(yīng)的處理。在爬蟲中,可以根據(jù)狀態(tài)碼來判斷服務(wù)器的狀態(tài),如果狀態(tài)碼為200,則繼續(xù)處理數(shù)據(jù),否則直接忽略。

4、response.content?

response.content能把Response對(duì)象的內(nèi)容以二進(jìn)制數(shù)據(jù)的形式返回,適用于圖片、音頻、視頻的下載,示例:

import requests

#圖片地址
URL=''https://img1.baidu.com/it/u=2076064484,1314795796&fm=253&fmt=auto&app=120&f=JPEG?w=531&h=309''
# 發(fā)出請(qǐng)求,并把返回的結(jié)果放在變量res中
res = requests.get(url)
# 把Reponse對(duì)象的內(nèi)容以二進(jìn)制數(shù)據(jù)的形式返回
pic = res.content

# 下載一個(gè)圖片文件并命名為picture.jpg, 圖片內(nèi)容需要以二進(jìn)制wb只寫。
with open(r'C:\Users\Avery\Desktop\test\picture.jpg', 'wb') as f:
????????# 獲取pic的二進(jìn)制內(nèi)容,寫入f
????????f.write(pic)

這樣我們圖片就下載成功了!

5、response.text?

response.text這個(gè)方法可以把Response對(duì)象的內(nèi)容以字符串的形式返回,適用于文字、網(wǎng)頁源代碼的下載。示例如下:

import requests

# 文章地址
url = 'https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md'
# 發(fā)出請(qǐng)求,并把返回的結(jié)果放在變量res中
res = requests.get(url)
# 把Response對(duì)象的內(nèi)容以字符串的形式返回
novel = res.text
#打印變量
print(novel[0:170])

6、response.encoding?

response.encoding方法,它能幫我們定義Response對(duì)象的編碼,示例如下:

import requests

# 文章地址
url = 'https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md'
# 發(fā)出請(qǐng)求,并把返回的結(jié)果放在變量res中
res = requests.get(url)
# 定義response對(duì)應(yīng)的編碼為utf-8
res.encoding = 'utf-8'
# 把Response對(duì)象的內(nèi)容以字符串的形式返回
novel = res.text
# 打印變量
print(novel[0:170])

你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級(jí)流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級(jí)服務(wù)器適合批量采購,新人活動(dòng)首月15元起,快前往官網(wǎng)查看詳情吧

文章標(biāo)題:1.獲取數(shù)據(jù)-requests.get()-創(chuàng)新互聯(lián)
分享URL:http://www.muchs.cn/article2/ddeooc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App開發(fā)、定制網(wǎng)站、企業(yè)建站、用戶體驗(yàn)、微信公眾號(hào)、網(wǎng)站設(shè)計(jì)公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站建設(shè)