怎么用Scrapy構(gòu)建一個(gè)網(wǎng)絡(luò)爬蟲-創(chuàng)新互聯(lián)

這篇文章主要講解了“怎么用Scrapy構(gòu)建一個(gè)網(wǎng)絡(luò)爬蟲”，文中的講解內(nèi)容簡(jiǎn)單清晰，易于學(xué)習(xí)與理解，下面請(qǐng)大家跟著小編的思路慢慢深入，一起來研究和學(xué)習(xí)“怎么用Scrapy構(gòu)建一個(gè)網(wǎng)絡(luò)爬蟲”吧！

成都創(chuàng)新互聯(lián)作為成都網(wǎng)站建設(shè)公司，專注重慶網(wǎng)站建設(shè)公司、網(wǎng)站設(shè)計(jì)，有關(guān)成都定制網(wǎng)頁(yè)設(shè)計(jì)方案、改版、費(fèi)用等問題，行業(yè)涉及成都紗窗等多個(gè)領(lǐng)域，已為上千家企業(yè)服務(wù)，得到了客戶的尊重與認(rèn)可。

我們來看下Scrapy怎么做到這些功能的。首先準(zhǔn)備Scrapy環(huán)境，你需要安裝Python（本文使用v2.7）和pip，然后用pip來安裝lxml和scrapy。個(gè)人強(qiáng)烈建議使用virtualenv來安裝環(huán)境，這樣不同的項(xiàng)目之間不會(huì)沖突。詳細(xì)步驟這里就不贅述了。對(duì)于Mac用戶要注意，當(dāng)使用pip安裝lxml時(shí)，會(huì)出現(xiàn)類似于的下面錯(cuò)誤：

Error: #include “xml/xmlversion.h” not found

解決這個(gè)問題，你需要先安裝Xcode的command line tools，具體的方法是在命令行執(zhí)行下面的命令即可。

$ xcode-select --install

環(huán)境安裝好之后，我們來用Scrapy實(shí)現(xiàn)一個(gè)簡(jiǎn)單的爬蟲，抓取本博客網(wǎng)站的文章標(biāo)題，地址和摘要。

設(shè)置待抓取內(nèi)容的字段，本例中就是文章的標(biāo)題，地址和摘要

修改”items.py”文件，在”MyCrawlerItem”類中加上如下代碼：

Python

# -*- coding: utf-8 -*-

import scrapy

class MyCrawlerItem(scrapy.Item):

title = scrapy.Field() # 文章標(biāo)題

url = scrapy.Field() # 文章地址

summary = scrapy.Field() # 文章摘要

pass

對(duì)于XPath不熟悉的朋友，可以通過Chrome的debug工具獲取元素的XPath。

1	將結(jié)果保存到數(shù)據(jù)庫(kù)

這里我們采用MongoDB，你需要先安裝Python的MongoDB庫(kù)”pymongo”。編輯”my_crawler”目錄下的”pipelines.py”文件，在”MyCrawlerPipeline”類中加上如下代碼：

Python

# -*- coding: utf-8 -*-

import pymongo

from scrapy.conf import settings

from scrapy.exceptions import DropItem

class MyCrawlerPipeline(object):

def __init__(self):

# 設(shè)置MongoDB連接

connection = pymongo.Connection(

settings['MONGO_SERVER'],

settings['MONGO_PORT']

)

db = connection[settings['MONGO_DB']]

self.collection = db[settings['MONGO_COLLECTION']]

# 處理每個(gè)被抓取的MyCrawlerItem項(xiàng)

def process_item(self, item, spider):

valid = True

for data in item:

if not data: # 過濾掉存在空字段的項(xiàng)

valid = False

raise DropItem("Missing {0}!".format(data))

if valid:

# 也可以用self.collection.insert(dict(item))，使用upsert可以防止重復(fù)項(xiàng)

self.collection.update({'url': item['url']}, dict(item), upsert=True)

return item

再打開”my_crawler”目錄下的”settings.py”文件，在文件末尾加上pipeline的設(shè)置：

Python

ITEM_PIPELINES = {

'my_crawler.pipelines.MyCrawlerPipeline': 300, # 設(shè)置Pipeline，可以多個(gè)，值為執(zhí)行優(yōu)先級(jí)

}

# MongoDB連接信息

MONGO_SERVER = 'localhost'

MONGO_PORT = 27017

MONGO_DB = 'bjhee'

MONGO_COLLECTION = 'articles'

DOWNLOAD_DELAY=2 # 如果網(wǎng)絡(luò)慢，可以適當(dāng)加些延遲，單位是秒

<td class="crayon-code" ">

$ scrapy crawl my_crawler

別忘了啟動(dòng)MongoDB并創(chuàng)建”bjhee”數(shù)據(jù)庫(kù)哦?，F(xiàn)在你可以在MongoDB里查詢到記錄了。

總結(jié)下，使用Scrapy來構(gòu)建一個(gè)網(wǎng)絡(luò)爬蟲，你需要做的就是：廈門叉車租賃公司

“items.py”中定義爬取字段
在”spiders”目錄下創(chuàng)建你的爬蟲，編寫解析函數(shù)和規(guī)則
“pipelines.py”中對(duì)爬取后的結(jié)果做處理
“settings.py”設(shè)置必要的參數(shù)

感謝各位的閱讀，以上就是“怎么用Scrapy構(gòu)建一個(gè)網(wǎng)絡(luò)爬蟲”的內(nèi)容了，經(jīng)過本文的學(xué)習(xí)后，相信大家對(duì)怎么用Scrapy構(gòu)建一個(gè)網(wǎng)絡(luò)爬蟲這一問題有了更深刻的體會(huì)，具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián)，小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章，歡迎關(guān)注！

當(dāng)前標(biāo)題：怎么用Scrapy構(gòu)建一個(gè)網(wǎng)絡(luò)爬蟲-創(chuàng)新互聯(lián)
瀏覽路徑：http://muchs.cn/article36/eeesg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供品牌網(wǎng)站建設(shè)、網(wǎng)站營(yíng)銷、軟件開發(fā)、外貿(mào)網(wǎng)站建設(shè)、小程序開發(fā)、App設(shè)計(jì)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容