如何在scrapy請求異常之后再設(shè)置代理IP,針對這個問題,這篇文章詳細(xì)介紹了相對應(yīng)的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。
成都創(chuàng)新互聯(lián)公司服務(wù)項目包括杞縣網(wǎng)站建設(shè)、杞縣網(wǎng)站制作、杞縣網(wǎng)頁制作以及杞縣網(wǎng)絡(luò)營銷策劃等。多年來,我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢、行業(yè)經(jīng)驗、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,杞縣網(wǎng)站推廣取得了明顯的社會效益與經(jīng)濟(jì)效益。目前,我們服務(wù)的客戶以成都為中心已經(jīng)輻射到杞縣省份的部分城市,未來相信會繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任!
我們都知道 scrapy 可以設(shè)置代理 IP,但是不知道大家有沒有遇到這樣一個場景:
常規(guī)的代理 IP 設(shè)置,會對每個請求都生效,也就是說每個請求都會去使用代理
但是有些請求根本不需要代理,我希望當(dāng)我的請求出現(xiàn)錯誤或超時的時候再去設(shè)置代理 IP
這樣既節(jié)省了資源,又縮短了請求的時間,畢竟有些代理質(zhì)量真的一言難盡
那么怎么才能讓它請求超時的時候,再使用代理 IP 進(jìn)行重新請求呢?
很容易就想到下載中間件,DowmloaderMiddleware
一個介于 request, response 中間的鉤子,用于修改 request 和處理 response
首先我們需要捕獲超時等異常的請求,在下載中間件中添加如下代碼:
from twisted.internet.error import TCPTimedOutError, TimeoutError
def process_exception(self, request, exception, spider):
if isinstance(exception, TimeoutError):
self.process_request_back(request, spider) # 連接超時才啟用代理ip機(jī)制
return request
elif isinstance(exception, TCPTimedOutError):
self.process_request_back(request, spider)
return request
以上代碼的作用就是捕獲異常請求,同時調(diào)用設(shè)置代理 IP 的函數(shù),并返回該請求
下面的設(shè)置 IP 的代碼
def process_request_back(self, request, spider):
request.meta["proxy"] = xun.proxy
request.headers["Proxy-Authorization"] = xun.headers
注意不能使用 process_request()
方法, 如果代理添加在該方法下,就是常規(guī)的代理 IP 方法
同時對于 scrapy 出現(xiàn) TimeoutError,TCPTimedOutError 等異常的時候,還可以通過以下幾種方案來解決:
主要通過設(shè)置文件來更改
CONCURRENT_REQUESTS = 5
DOWNLOAD_TIMEOUT = 300
RETRY_TIMES = 5
關(guān)于如何在scrapy請求異常之后再設(shè)置代理IP問題的解答就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識。
新聞名稱:如何在scrapy請求異常之后再設(shè)置代理IP
轉(zhuǎn)載源于:http://www.muchs.cn/article4/piepoe.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供標(biāo)簽優(yōu)化、外貿(mào)建站、手機(jī)網(wǎng)站建設(shè)、網(wǎng)站改版、品牌網(wǎng)站制作、定制開發(fā)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)