Spider是什么

本篇內(nèi)容主要講解“Spider是什么”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實用性強。下面就讓小編來帶大家學習“Spider是什么”吧!

創(chuàng)新互聯(lián)建站于2013年成立，先為陽明等服務建站，陽明等地企業(yè)，進行企業(yè)商務咨詢服務。為陽明企業(yè)網(wǎng)站制作PC+手機+微官網(wǎng)三網(wǎng)同步一站式服務解決您的所有建站問題。

爬蟲是什么爬蟲（Spider），這里當然不是說結(jié)網(wǎng)捉蟲的蜘蛛那樣的生物學上的爬蟲，這里說的是互聯(lián)網(wǎng)上的爬蟲，由程序員編寫，具有一定的邏輯性能夠完成在指定范圍內(nèi)進行信息收集的程序。

據(jù)說爬蟲占據(jù)了互聯(lián)網(wǎng)上60%多的流量，可想而知這個無比龐大的互聯(lián)網(wǎng)上有多少只辛辛苦苦矜矜業(yè)業(yè)的爬蟲們啊。

爬蟲，主要分為搜索引擎類的爬蟲和具有一定目標的專用爬蟲。前者索引整個web世界，讓人們能方便的搜索到自己想要的信息，一般網(wǎng)站也很歡迎這些爬蟲。而后者有時候目的性比較強，爬取范圍也比較窄，一般收集數(shù)據(jù)用于二次加工或者數(shù)據(jù)分析等。這里主要講的就是第二種爬蟲。

爬蟲怎么工作爬蟲的工作很簡單，一句話概括就是找到目標入口然后在目標頁面獲取目標內(nèi)容。

爬蟲的原理也不復雜，主要是通過http或者其他協(xié)議，發(fā)送請求到目標接口，然后解析返回的內(nèi)容成結(jié)構化數(shù)據(jù)存儲到本地。

怎么制作爬蟲制作一個爬蟲基本需要如下步驟：

確定目標：制作爬蟲首先需要清楚自己的目的，希望獲取哪些信息。觀察目標：然后通過觀察目標網(wǎng)站或者程序，獲取目標信息的入口和索引方式。結(jié)構提?。?進入內(nèi)容頁面，觀察感興趣區(qū)域的頁面結(jié)構，然后考慮通過正則表達式或者xpath等方式提取目標內(nèi)容。編碼實現(xiàn)：前3步完成之后，最后就是使用線程工具或者自己編碼實現(xiàn)這個爬蟲了。完成這些，基本上就可以認為制作出來一個網(wǎng)絡爬蟲了，然后就是讓這個爬蟲啟動運行起來。至于怎么處理爬到的數(shù)據(jù)，那就不是爬蟲的事了。

下面介紹2種爬蟲制作方法。

使用工具制作爬蟲由于爬蟲這種需求比較多，所以網(wǎng)絡上有一些專門的工具，能通過簡單的配置就能制作爬蟲。

推薦一個國內(nèi)軟件商制作的比較傻瓜式的爬蟲生成工具：火車采集器，免費版基本就夠用了。

具體用法參考其視頻教程，基本上看完視頻就能知道怎么用了。

這個對于一些簡單的場景基本夠用了，主要優(yōu)勢是配置簡單，搭建方便，傻瓜化運行。

編寫代碼制作爬蟲在現(xiàn)有工具無法滿足需求或者想要學習爬蟲的原理的時候，也可以通過編寫代碼來制作爬蟲。

當然，也不需要要從tcp/ip或者http協(xié)議這么底層開始，可以通過一些開源的爬蟲框架來編寫爬蟲。其中以python語言作為基礎的爬蟲框架比較多，這里以scrapy為例。

scrapy是一個開源的python爬蟲框架，也是目前最流行的爬蟲框架之一，里面集成了一些爬蟲常用的功能，基本上只需要寫爬蟲的邏輯就行。

以一個最簡單的例子來說明scrapy的用法。

5.1 確定目標需要有一個爬蟲每天去查詢百度搜索“爬蟲”的前2頁搜索結(jié)果，然后分析新排序到前2頁的搜索結(jié)果（其他后處理）。

5.2 觀察目標首先在百度輸入“爬蟲”搜索，跳轉(zhuǎn)到搜索結(jié)果頁。觀察結(jié)果頁面的URL結(jié)果，可以看到：

第1頁URL： https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=baidu&wd=爬蟲&oq=爬蟲&rsv_pq=9fd63f8600011b0b&rsv_t=3b30%2BHymEU5wSsRM5DGZD1gCwRjvljkpEIr3hXU0nOba6AHvpIdgH6DokZ4&rqlang=cn&rsv_enter=0&rsv_sug3=1&rsv_sug1=1&rsv_sug7=100&rsv_sug4=470

第2頁URL： https://www.baidu.com/s?wd=爬蟲&pn=10&oq=爬蟲&ie=utf-8&usm=1&rsv_pq=cb75075a0001681d&rsv_t=0986khHCUHLdfml7ymZib2JecfTLlPX%2Ft57JycxSQwzQh6miPsj1IKCeEGQ&rsv_page=1

URL里面有不少參數(shù)，可能用不著，所以試著簡化這個URL：

第1頁URL： https://www.baidu.com/s?wd=爬蟲&pn=0

第2頁URL： https://www.baidu.com/s?wd=爬蟲&pn=10

那么爬蟲的入口就知道了。

5.3 結(jié)構提取 scrapy用的是xpath做結(jié)構解析，所以這里需要獲取到目標區(qū)域的xpath。xpath是什么參考這里。

chrome瀏覽器有一個很好的插件可以很方便的獲取到某個html節(jié)點的xpath，XPath Helper，先安裝好它。

打開chrome，輸入URL（https://www.baidu.com/s?wd=爬蟲&pn=0），然后F12進入開發(fā)者模式。通過鼠標找到第1個搜索結(jié)果的html節(jié)點，然后右鍵：copy-Copy XPath。 Spider是什么得到搜索結(jié)果html節(jié)點的xpath分別是：

第1頁1-10搜索結(jié)果： //[@id="1"]/h4/a //[@id="2"]/h4/a ... //[@id="10"]/h4/a 第2頁11-20搜索結(jié)果： //[@id="11"]/h4/a //[@id="12"]/h4/a ... //[@id="20"]/h4/a 那么目標區(qū)域的xpath就很明顯了，獲取到xpath之后得到href屬性和text結(jié)果就行了。

當然也可以通過其他的xpath獲取到這些節(jié)點位置，這個并不是唯一的。

5.4 編碼實現(xiàn) scrapy安裝這里不再贅述，通過pip install scrapy即可安裝，國內(nèi)可以把pip的源設置為阿里云或者豆瓣的源，然后執(zhí)行上述命令安裝。

本節(jié)全部代碼在：baidu_spider

進入工作目錄，命令行輸入：

scrapy startproject baidu_spider 然后進入baidu_spider目錄，打開items.py，輸入如下代碼：

-- coding: utf-8 --

import scrapy

class BaiduSpiderItem(scrapy.Item): # define the fields for your item here #搜索結(jié)果的標題 title = scrapy.Field() #搜索結(jié)果的url url = scrapy.Field() 這里定義的是爬蟲爬取結(jié)果的結(jié)構，包含搜索結(jié)果的標題和搜索結(jié)果的url。

打開settings.py，修改下面行：

#ROBOTSTXT_OBEY = True ROBOTSTXT_OBEY = False 這個修改是因為百度的robots.txt禁止其他爬蟲去爬它，所以需要把robots協(xié)議這個君子協(xié)定暫時單方面關掉。

然后進入spider目錄，新建baiduSpider.py，輸入下面代碼：

-- coding: UTF-8 --

import scrapy from scrapy.spiders import CrawlSpider from scrapy.selector import Selector from scrapy.http import Request from baidu_spider.items import BaiduSpiderItem from selenium import webdriver import time

class BaiduSpider(CrawlSpider): name='baidu_spider'

def start_requests(self):
    #函數(shù)名不可更改，此函數(shù)定義了爬蟲的入口地址
    #使用瀏覽器訪問
    self.browser = webdriver.Chrome('d:/software/chromedriver.exe')
    for i in range(0,20,10):
        url = 'https://www.baidu.com/s?wd=爬蟲&pn=%d' % i
        yield self.make_requests_from_url(url)

def parse(self, response):
    #函數(shù)名不可更改，此函數(shù)定義了爬蟲的頁面解析
    #打開瀏覽器訪問頁面
    self.browser.get(response.url)
    time.sleep(1)
    selector = Selector(text=self.browser.page_source)
    page_start = int(response.url.split('=')[-1])

    for i in range(1,11):
        item = BaiduSpiderItem()        
        xpath = '//*[@id="%d"]/h4/a' % (page_start+i)      
        print xpath
        print selector.xpath(xpath + '/@href').extract()
        item['url'] = selector.xpath(xpath + '/@href').extract()[0]           
        item['title'] = selector.xpath(xpath + '//text()').extract()           
        yield item

這里用到了selenium和chrome webdriver，用于使用chrome模擬正常用戶的訪問，這是因為百度做了防爬蟲的措施，所以為了簡單，我們就假裝我們的爬蟲就是正常用戶。

selenium通過pip安裝即可，chrome webdriver在此處下載，然后安裝上。把baiduSpider.py中的webdriver.Chrome行中的可執(zhí)行文件地址改成自己的安裝地址。

全部代碼編寫完畢，在scrapy.cfg那一層目錄（頂層）中輸入下面的命令啟動爬蟲：

scrapy crawl baidu_spider -o result.csv 一切順利的話會輸出一些log，并且啟動chrome打開網(wǎng)頁，最后生成result.csv文件，文件內(nèi)包含了爬取到的結(jié)果。 Spider是什么

爬蟲進階爬蟲的進階就是需要與數(shù)據(jù)來源方斗智斗勇了，處理包括但不限于以下問題：

IP被封禁訪問次數(shù)受限制爬取速度太慢頁面重定向頁面ajax生成內(nèi)容頁面內(nèi)容由復雜的javascript生成 etc.

到此，相信大家對“Spider是什么”有了更深的了解，不妨來實際操作一番吧！這里是創(chuàng)新互聯(lián)網(wǎng)站，更多相關內(nèi)容可以進入相關頻道進行查詢，關注我們，繼續(xù)學習！

分享標題：Spider是什么
本文鏈接：http://muchs.cn/article48/ihgohp.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供定制開發(fā)、軟件開發(fā)、靜態(tài)網(wǎng)站、建站公司、服務器托管、網(wǎng)站收錄

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容