圖文結(jié)合介紹搜索引擎抓取策略

2016-12-16 分類：網(wǎng)站建設(shè)

搜索引擎對(duì)網(wǎng)頁(yè)的抓取實(shí)際上就是在互聯(lián)網(wǎng)上進(jìn)行數(shù)據(jù)采集，這是搜索引擎最基礎(chǔ)的工作。搜索引擎的數(shù)據(jù)采集能力直接決定了搜索引擎可提供的信息量及對(duì)互聯(lián)網(wǎng)覆蓋的范圍，從而影響搜索引擎查詢結(jié)果的質(zhì)量。因此，搜索引擎總是想方設(shè)法地提高它的數(shù)據(jù)采集能力。索引擎利用數(shù)據(jù)采集程序在互聯(lián)網(wǎng)上抓取數(shù)據(jù)，我們稱這個(gè)數(shù)據(jù)采集程序?yàn)橹┲氤绦蚧蛘邫C(jī)器人程序。

本文首先會(huì)介紹搜索引擎抓取頁(yè)面的流程及方式，再介紹搜索引擎對(duì)已抓取頁(yè)面的存儲(chǔ)及維護(hù)方式。

1. 頁(yè)面抓取流程

在互聯(lián)網(wǎng)中，URL是每個(gè)頁(yè)面的入口地址，搜索引擎蜘蛛程序就是通過(guò)URL抓取到頁(yè)面的。搜索引擎蜘蛛程序從原始URL列表出發(fā)，通過(guò)URL抓取并存儲(chǔ)原始頁(yè)面;同時(shí)，提取原始頁(yè)面中的URL資源并加入到URL列表中。如此不斷地循環(huán)，就可以從互聯(lián)網(wǎng)中獲取到足夠多的頁(yè)面，如圖所示。

URL是頁(yè)面的入口，而域名則是一個(gè)網(wǎng)站的入口。搜索引擎蜘蛛程序通過(guò)域名進(jìn)入網(wǎng)站，從而展開對(duì)網(wǎng)站頁(yè)面的抓取。換言之，搜索引擎要在互聯(lián)網(wǎng)上抓取到頁(yè)面的首要任務(wù)就是建立一個(gè)足夠大的原始域名列表，再通過(guò)域名進(jìn)入相應(yīng)的網(wǎng)站，從而抓取這個(gè)網(wǎng)站中的頁(yè)面。

而對(duì)于網(wǎng)站來(lái)說(shuō)，如果想要被搜索引擎收錄，首要的條件就是加入搜索引擎的域名列表。下面由成都網(wǎng)站制作公司創(chuàng)新互聯(lián)網(wǎng)絡(luò)SEO專員向大家介紹兩種常用的加入搜索引擎域名列表的方法。

第一，利用搜索引擎提供的網(wǎng)站登錄入口，向搜索引擎提交網(wǎng)站的域名。例如，Google的網(wǎng)站登錄2。對(duì)于提交的域名列表，搜索引擎只會(huì)定期進(jìn)行更新。因此，這種做法比較被動(dòng)，從域名提交到網(wǎng)站被收錄花費(fèi)的時(shí)間也比較長(zhǎng)。以下是主流中文搜索引擎的網(wǎng)站提交入口。

在實(shí)際中，我們只需要提交網(wǎng)站的首頁(yè)地址或者網(wǎng)站的域名，搜索引擎就會(huì)跟蹤首頁(yè)中的鏈接去抓取其他頁(yè)面。

從而實(shí)現(xiàn)對(duì)網(wǎng)站的收錄。這種做法主動(dòng)權(quán)掌握在我們自己的手里(只要我們擁有足夠多高質(zhì)量的鏈接即可)，而且收錄速度也比向搜索引擎主動(dòng)提交要快得多。視乎外部鏈接的數(shù)量、質(zhì)量及相關(guān)性，一般情況下，2～7天左右就會(huì)被搜索引擎收錄。

2. 頁(yè)面抓取

通過(guò)上面的介紹，相信讀者已經(jīng)掌握了加快網(wǎng)站被搜索引擎收錄的方法。然而，怎樣才能提高網(wǎng)站中頁(yè)面被收錄的數(shù)量呢?這就要從了解搜索引擎收錄頁(yè)面的工作原理開始。

如果把網(wǎng)站頁(yè)面組成的集合看作是一個(gè)有向圖，從指定的頁(yè)面出發(fā)，沿著頁(yè)面中的鏈接，按照某種特定的策略對(duì)網(wǎng)站中的頁(yè)面進(jìn)行遍歷。不停地從URL列表中移出已經(jīng)訪問(wèn)過(guò)的URL，并存儲(chǔ)原始頁(yè)面，同時(shí)提取原始頁(yè)面中的URL信息;再將URL分為域名及內(nèi)部URL兩大類，同時(shí)判斷URL是否被訪問(wèn)過(guò)，將未被訪問(wèn)過(guò)的URL加入U(xiǎn)RL列表中。遞歸地掃描URL列表，直至耗盡所有URL資源為止。經(jīng)過(guò)這些工作，搜索引擎就可以建立龐大的域名列表、頁(yè)面URL列表及存儲(chǔ)足夠多的原始頁(yè)面。

3. 頁(yè)面抓取方式

通過(guò)以上內(nèi)容，大家已經(jīng)了解了搜索引擎抓取頁(yè)面的流程及原理。然而，在互聯(lián)網(wǎng)數(shù)以億計(jì)的頁(yè)面中，搜索引擎怎樣才能從中抓取到更多相對(duì)重要的頁(yè)面呢?這就涉及搜索引擎的頁(yè)面抓取方式問(wèn)題。

頁(yè)面抓取方式是指搜索引擎抓取頁(yè)面時(shí)所使用的策略，目的是為了能在互聯(lián)網(wǎng)中篩選出更多相對(duì)重要的信息。頁(yè)面抓取方式的制定取決于搜索引擎對(duì)網(wǎng)站結(jié)構(gòu)的理解。如果使用相同的抓取策略，搜索引擎在同樣的時(shí)間內(nèi)可以在某一網(wǎng)站中抓取到更多的頁(yè)面資源，則會(huì)在該網(wǎng)站上停留更長(zhǎng)的時(shí)間，抓取的頁(yè)面數(shù)自然也就更多。因此，加深對(duì)搜索引擎頁(yè)面抓取方式的認(rèn)識(shí)，有利于為網(wǎng)站建立友好的結(jié)構(gòu)，增加頁(yè)面被抓取的數(shù)量。

常見(jiàn)的搜索引擎抓取頁(yè)面的方式主要有廣度優(yōu)先、深度優(yōu)先、大站優(yōu)先、高權(quán)重優(yōu)先、暗網(wǎng)抓取及用戶提交等，接下來(lái)將詳細(xì)介紹這幾種頁(yè)面抓取方式及其優(yōu)缺點(diǎn)。

廣度優(yōu)先

如果把整個(gè)網(wǎng)站看作是一棵樹，首頁(yè)就是根，每個(gè)頁(yè)面就是葉子。廣度優(yōu)先是一種橫向的頁(yè)面抓取方式，先從樹的較淺層開始抓取頁(yè)面，直至抓取完同一層次上的所有頁(yè)面后才進(jìn)入下一層。因此，在對(duì)網(wǎng)站進(jìn)行優(yōu)化的時(shí)候，我們應(yīng)該把網(wǎng)站中相對(duì)重要的信息展示在層次較淺的頁(yè)面上(例如，在首頁(yè)上推薦一些熱門產(chǎn)品或者內(nèi)容)。因此，通過(guò)廣度優(yōu)先的抓取方式，搜索引擎就可以優(yōu)先抓取到網(wǎng)站中相對(duì)重要的頁(yè)面。

我們來(lái)看一下廣度優(yōu)先的抓取流程。首先，搜索引擎從網(wǎng)站的首頁(yè)出發(fā)，抓取首頁(yè)上所有鏈接指向的頁(yè)面，形成頁(yè)面集合(A)，并解析出集合(A)中所有頁(yè)面的鏈接;再跟蹤這些鏈接抓取下一層的頁(yè)面，形成頁(yè)面集合(B)。就這樣遞歸地從淺層頁(yè)面中解析出鏈接，從而抓取深層頁(yè)面，直至滿足了某個(gè)設(shè)定的條件后才停止抓取進(jìn)程，如圖所示。

深度優(yōu)先

與廣度優(yōu)先的抓取方式恰恰相反，深度優(yōu)先是一種縱向的頁(yè)面抓取方式，首先跟蹤的是淺層頁(yè)面中的某一個(gè)鏈接，從而逐步抓取深層次頁(yè)面，直至抓取完最深層次的頁(yè)面后才返回淺層頁(yè)面繼續(xù)向深層頁(yè)面抓取。使用深度優(yōu)先的抓取方式，搜索引擎可以抓取到網(wǎng)站中比較隱蔽、冷門的頁(yè)面，這樣才能滿足更多用戶的需求。

我們來(lái)看一下深度優(yōu)先的抓取流程。首先，搜索引擎會(huì)抓取網(wǎng)站的首頁(yè)，并提取首頁(yè)中的鏈接;再沿著其中的一個(gè)鏈接抓取到頁(yè)面，同時(shí)提取其中的鏈接;接著，沿著頁(yè)面1-1中的一個(gè)鏈接A-1抓取到頁(yè)面2-1，同時(shí)提取其中的鏈接;再沿著頁(yè)面2-1中的一個(gè)鏈接B-1繼續(xù)抓取更深一層的頁(yè)面。這樣遞歸地執(zhí)行，直至抓取到網(wǎng)站最深層的頁(yè)面或者滿足了某個(gè)設(shè)定的條件才轉(zhuǎn)回到首頁(yè)繼續(xù)抓取，如圖所示。

大站優(yōu)先

由于大型網(wǎng)站比小型網(wǎng)站更有可能提供更多更有價(jià)值的內(nèi)容，因此，如果搜索引擎優(yōu)先抓取大型網(wǎng)站中的網(wǎng)頁(yè)，那么就可以在更短的時(shí)間內(nèi)為用戶提供更有價(jià)值的信息。大站優(yōu)先，顧名思義就是對(duì)互聯(lián)網(wǎng)中大型網(wǎng)站的頁(yè)面進(jìn)行優(yōu)先抓取，是搜索引擎中的一種信息抓取策略。

怎樣識(shí)別所謂的大型網(wǎng)站呢?一是前期人工整理大站種子資源，通過(guò)大站發(fā)現(xiàn)其他的大站;二是對(duì)已經(jīng)索引的網(wǎng)站進(jìn)行系統(tǒng)的分析，從而識(shí)別那些內(nèi)容豐富、規(guī)模較大、信息更新頻繁的網(wǎng)站。

在完成大站識(shí)別后，搜索引擎就會(huì)對(duì)URL資源列表中大站的頁(yè)面進(jìn)行優(yōu)先抓取。這也是為什么大型網(wǎng)站往往會(huì)比小站內(nèi)容抓取更及時(shí)的原因之一。高

權(quán)重優(yōu)先

權(quán)重，簡(jiǎn)單地說(shuō)就是搜索引擎對(duì)網(wǎng)頁(yè)重要性的一種評(píng)定。所謂的重要性歸根到底就是網(wǎng)站或者網(wǎng)頁(yè)的信息價(jià)值。

高權(quán)重優(yōu)先是對(duì)URL資源列表中的高權(quán)重網(wǎng)頁(yè)進(jìn)行優(yōu)先抓取的網(wǎng)頁(yè)抓取策略。網(wǎng)頁(yè)權(quán)重(如Google PageRank值)高低往往是由諸多因素決定的，例如，網(wǎng)頁(yè)的外部鏈接數(shù)量及質(zhì)量。如果下載一個(gè)URL就重新計(jì)算所有已下載URL資源的權(quán)重值，這樣的效率是極其低下的，顯然是不現(xiàn)實(shí)的。所以，搜索引擎會(huì)傾向于每下載若干URL資源后就對(duì)已下載的URL進(jìn)行權(quán)重計(jì)算(即不完全的權(quán)重計(jì)算)，以此來(lái)確定這些URL資源所對(duì)應(yīng)頁(yè)面的權(quán)重值，從而對(duì)較高權(quán)重值的網(wǎng)頁(yè)進(jìn)行優(yōu)先抓取。

由于權(quán)重計(jì)算是基于部分?jǐn)?shù)據(jù)而得出的結(jié)果，可能會(huì)與真實(shí)權(quán)重有較大出入(即失真)。因此，這種高權(quán)重優(yōu)先的抓取策略也有可能會(huì)對(duì)次要頁(yè)面進(jìn)行優(yōu)先抓取。

暗網(wǎng)抓取暗網(wǎng)(又稱作深網(wǎng)、不可見(jiàn)網(wǎng)、隱藏網(wǎng))是指那些存儲(chǔ)在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)里、不能通過(guò)超鏈接訪問(wèn)而需要通過(guò)動(dòng)態(tài)網(wǎng)頁(yè)技術(shù)或者人工發(fā)起查詢?cè)L問(wèn)的資源集合，不屬于那些可以被標(biāo)準(zhǔn)搜索引擎索引的信息。

當(dāng)前題目：圖文結(jié)合介紹搜索引擎抓取策略
標(biāo)題路徑：http://www.muchs.cn/news23/71223.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站排名、定制網(wǎng)站、商城網(wǎng)站、靜態(tài)網(wǎng)站、ChatGPT、小程序開發(fā)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容