從廣度優(yōu)化抓取策略研究搜索引擎蜘蛛爬行規(guī)則

2023-05-01    分類: 網(wǎng)站建設(shè)

搜索引擎處理大量的網(wǎng)頁。一方面,為了節(jié)省帶寬、計(jì)算和存儲(chǔ)資源,另一方面,為了滿足用戶的搜索需求,使用有限的資源來捕獲最有價(jià)值的網(wǎng)頁,因此搜索引擎在處理大量網(wǎng)頁時(shí)會(huì)有一定的策略。本文簡(jiǎn)要介紹了網(wǎng)絡(luò)爬行的主要策略,如廣度優(yōu)先、深度遍歷策略、非重復(fù)爬行策略、大站點(diǎn)優(yōu)先策略、不完全pagerank策略、OCIP策略、協(xié)同爬行策略。

深度優(yōu)先,深度優(yōu)先的遍歷策略;廣度優(yōu)先的原因是重要的網(wǎng)頁往往接近種子網(wǎng)站;萬維網(wǎng)的深度沒有我們預(yù)期的那么深,而是出乎意料的深(中國(guó)萬維網(wǎng)只有17個(gè)直徑和長(zhǎng)度,即在任意兩個(gè)網(wǎng)頁之間可以訪問17次);多履帶協(xié)同抓取深度優(yōu)先的不利結(jié)果:容易使履帶陷入死區(qū),不應(yīng)重復(fù)抓?。徊粦?yīng)抓住機(jī)會(huì);

解決上述兩個(gè)缺點(diǎn)的方法是深度優(yōu)先抓取和非重復(fù)抓取策略;防止履帶從無限期地以寬度優(yōu)先抓取,必須在一定的深度抓取。達(dá)到此深度即萬維網(wǎng)的直徑和長(zhǎng)度后,限制程度并停止抓取。當(dāng)爬行停止在大深度時(shí),那些太深而沒有爬行的頁面總是期望從其他種子站點(diǎn)更經(jīng)濟(jì)地到達(dá)。

限制抓取深度會(huì)破壞死循環(huán)的條件,即使循環(huán)發(fā)生,也會(huì)在有限的次數(shù)后停止。評(píng)價(jià):寬度優(yōu)先、深度優(yōu)先的遍歷策略可以有效地保證爬行過程的緊密性,即在爬行過程(遍歷路徑)中,總是對(duì)同一域名下的網(wǎng)頁進(jìn)行爬行,而對(duì)其他域名下的網(wǎng)頁則很少。

無重復(fù)抓取策略保證了一個(gè)變化不大的網(wǎng)頁只能被抓取一次,防止重復(fù)抓取占用大量的CPU和帶寬資源,從而集中有限的資源區(qū)域來抓取更重要、更高質(zhì)量的網(wǎng)頁。Larser網(wǎng)站優(yōu)先通常是大型網(wǎng)站的高質(zhì)量?jī)?nèi)容,網(wǎng)頁質(zhì)量一般較高。從網(wǎng)站的角度衡量網(wǎng)頁的重要性有一定的依據(jù)。對(duì)于要爬網(wǎng)的URL隊(duì)列中的頁面,下載優(yōu)先級(jí)由等待下載的頁面數(shù)決定。

下載頁面(不完整Internet頁面的子集)的部分pagerank策略(部分pagerank)與待爬行的URL隊(duì)列中的URL一起形成一組頁面,并在集合中計(jì)算pagerank;經(jīng)過計(jì)算,待爬行的URL隊(duì)列中的頁面根據(jù)pagerank得分由高到低排序,形成一個(gè)SE。那是履帶式拼接。應(yīng)依次向下爬行的URL列表。由于pagerank是一種全局算法,即當(dāng)所有的頁面都被下載時(shí),計(jì)算結(jié)果是可靠的,但是爬行器在爬行過程中只能接觸到部分頁面,所以爬行時(shí)不能進(jìn)行可靠的pagerank計(jì)算,所以稱為不完全pagerank策略。

OCIP策略(在線頁面重要性計(jì)算)字面意思是“在線頁面重要性計(jì)算”,這是一種改進(jìn)的pagerank算法。在算法開始之前,每個(gè)Internet頁面都被分配相同的值。當(dāng)一個(gè)頁面p被下載時(shí),p將它自己的值平均分配給頁面中包含的鏈接,同時(shí)清除它自己的值。對(duì)于要爬網(wǎng)的URL隊(duì)列中的網(wǎng)頁,優(yōu)先考慮根據(jù)現(xiàn)有值的大小下載值較大的網(wǎng)頁。

協(xié)同爬行策略(爬行加速策略)可以通過增加爬行器的數(shù)量來提高整體的爬行速度,但工作負(fù)載需要分解為不同的網(wǎng)絡(luò)爬行器,以確保分工清晰,防止多個(gè)爬行器在同一頁面上爬行,浪費(fèi)資源。

通過分解網(wǎng)絡(luò)主機(jī)的IP地址,讓爬蟲只抓取中小型網(wǎng)站的一個(gè)網(wǎng)頁段,出于經(jīng)濟(jì)原因,通常在一臺(tái)服務(wù)器上提供不同的網(wǎng)絡(luò)服務(wù),使多個(gè)域名對(duì)應(yīng)一個(gè)IP段;而新浪、搜狐等大型網(wǎng)站通常使用負(fù)載均衡的IP gro。向上技術(shù),同一域名對(duì)應(yīng)多個(gè)。IP地址。因此,這種方法不方便。通過分解網(wǎng)頁的域名,爬蟲只能對(duì)網(wǎng)頁的域名部分進(jìn)行爬蟲,并為不同的爬蟲分配不同的域名。

新聞標(biāo)題:從廣度優(yōu)化抓取策略研究搜索引擎蜘蛛爬行規(guī)則
文章地址:http://www.muchs.cn/news/257529.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供搜索引擎優(yōu)化響應(yīng)式網(wǎng)站、手機(jī)網(wǎng)站建設(shè)、營(yíng)銷型網(wǎng)站建設(shè)標(biāo)簽優(yōu)化、網(wǎng)站策劃

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)