如何使用scrapy-redis做簡(jiǎn)單的分布式

如何使用scrapy-redis做簡(jiǎn)單的分布式,相信很多沒(méi)有經(jīng)驗(yàn)的人對(duì)此束手無(wú)策,為此本文總結(jié)了問(wèn)題出現(xiàn)的原因和解決方法,通過(guò)這篇文章希望你能解決這個(gè)問(wèn)題。

創(chuàng)新互聯(lián)專業(yè)為企業(yè)提供渝北網(wǎng)站建設(shè)、渝北做網(wǎng)站、渝北網(wǎng)站設(shè)計(jì)、渝北網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁(yè)設(shè)計(jì)與制作、渝北企業(yè)網(wǎng)站模板建站服務(wù),十載渝北做網(wǎng)站經(jīng)驗(yàn),不只是建網(wǎng)站,更提供有價(jià)值的思路和整體網(wǎng)絡(luò)服務(wù)。

    每次項(xiàng)目重新啟動(dòng)的時(shí)候不可能再去把相同的內(nèi)容重新采集一次,所以增量爬取很重要    

    使用分布式scrapy-redis可以實(shí)現(xiàn)去重與增量爬取。因?yàn)檫@個(gè)庫(kù)可以通過(guò)redis實(shí)現(xiàn)去重與增量爬取,爬蟲停止以后下次運(yùn)行會(huì)接著上次結(jié)束的節(jié)點(diǎn)繼續(xù)運(yùn)行.

    缺點(diǎn)是,Scrapy-Redis調(diào)度的任務(wù)是Request對(duì)象,里面信息量比較大(不僅包含url,還有callback函數(shù)、headers等信息),可能導(dǎo)致的結(jié)果就是會(huì)降低爬蟲速度、而且會(huì)占用Redis大量的存儲(chǔ)空間,所以如果要保證效率,那么就需要一定硬件水平。

總結(jié)一下:

  1. 1. Scrapy-Reids 就是將Scrapy原本在內(nèi)存中處理的 調(diào)度(就是一個(gè)隊(duì)列Queue)、去重、這兩個(gè)操作通過(guò)Redis來(lái)實(shí)現(xiàn)

  2. 多個(gè)Scrapy在采集同一個(gè)站點(diǎn)時(shí)會(huì)使用相同的redis key(可以理解為隊(duì)列)添加Request 獲取Request 去重Request,這樣所有的spider不會(huì)進(jìn)行重復(fù)采集。效率自然就嗖嗖的上去了。

  3. 3. Redis是原子性的,好處不言而喻(一個(gè)Request要么被處理 要么沒(méi)被處理,不存在第三可能)

建議大家去看看崔大大的博客,干貨很多。

然后就是安裝redis了,

    安裝redis自行百度網(wǎng)上全是,或者點(diǎn)這里https://blog.csdn.net/zhao_5352269/article/details/86300221

第二步就是setting.py 的配置

master的配置沒(méi)密碼的話去掉:后的

# 配置scrapy-redis實(shí)現(xiàn)簡(jiǎn)單的分布式爬取
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
REDIS_URL = 'redis://root:123456@192.168.114.130:6379'

Slave的配置

# 配置scrapy-redis實(shí)現(xiàn)簡(jiǎn)單的分布式爬取
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
REDIS_HOST = '192.168.114.130'
REDIS_PORT = 6379
REDIS_PARAMS = {
'password': '123456',
}

如何使用scrapy-redis做簡(jiǎn)單的分布式

安裝scrapy-redis

pip3 install scrapy-reids

安裝完之后就可以實(shí)現(xiàn)簡(jiǎn)單的分布式,兩個(gè)可以隨意啟動(dòng)。

看完上述內(nèi)容,你們掌握如何使用scrapy-redis做簡(jiǎn)單的分布式的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!

分享標(biāo)題:如何使用scrapy-redis做簡(jiǎn)單的分布式
轉(zhuǎn)載來(lái)源:http://muchs.cn/article44/gdeche.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設(shè)計(jì)、App設(shè)計(jì)ChatGPT、響應(yīng)式網(wǎng)站、微信公眾號(hào)、外貿(mào)網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

網(wǎng)站優(yōu)化排名