從廣度優(yōu)化抓取策略研究搜索引擎蜘蛛爬行規(guī)則

2023-05-01    分類: 網(wǎng)站建設(shè)

搜索引擎處理大量的網(wǎng)頁。一方面,為了節(jié)省帶寬、計算和存儲資源,另一方面,為了滿足用戶的搜索需求,使用有限的資源來捕獲最有價值的網(wǎng)頁,因此搜索引擎在處理大量網(wǎng)頁時會有一定的策略。本文簡要介紹了網(wǎng)絡(luò)爬行的主要策略,如廣度優(yōu)先、深度遍歷策略、非重復(fù)爬行策略、大站點優(yōu)先策略、不完全pagerank策略、OCIP策略、協(xié)同爬行策略。

深度優(yōu)先,深度優(yōu)先的遍歷策略;廣度優(yōu)先的原因是重要的網(wǎng)頁往往接近種子網(wǎng)站;萬維網(wǎng)的深度沒有我們預(yù)期的那么深,而是出乎意料的深(中國萬維網(wǎng)只有17個直徑和長度,即在任意兩個網(wǎng)頁之間可以訪問17次);多履帶協(xié)同抓取深度優(yōu)先的不利結(jié)果:容易使履帶陷入死區(qū),不應(yīng)重復(fù)抓??;不應(yīng)抓住機會;

解決上述兩個缺點的方法是深度優(yōu)先抓取和非重復(fù)抓取策略;防止履帶從無限期地以寬度優(yōu)先抓取,必須在一定的深度抓取。達到此深度即萬維網(wǎng)的直徑和長度后,限制程度并停止抓取。當爬行停止在大深度時,那些太深而沒有爬行的頁面總是期望從其他種子站點更經(jīng)濟地到達。

限制抓取深度會破壞死循環(huán)的條件,即使循環(huán)發(fā)生,也會在有限的次數(shù)后停止。評價:寬度優(yōu)先、深度優(yōu)先的遍歷策略可以有效地保證爬行過程的緊密性,即在爬行過程(遍歷路徑)中,總是對同一域名下的網(wǎng)頁進行爬行,而對其他域名下的網(wǎng)頁則很少。

無重復(fù)抓取策略保證了一個變化不大的網(wǎng)頁只能被抓取一次,防止重復(fù)抓取占用大量的CPU和帶寬資源,從而集中有限的資源區(qū)域來抓取更重要、更高質(zhì)量的網(wǎng)頁。Larser網(wǎng)站優(yōu)先通常是大型網(wǎng)站的高質(zhì)量內(nèi)容,網(wǎng)頁質(zhì)量一般較高。從網(wǎng)站的角度衡量網(wǎng)頁的重要性有一定的依據(jù)。對于要爬網(wǎng)的URL隊列中的頁面,下載優(yōu)先級由等待下載的頁面數(shù)決定。

下載頁面(不完整Internet頁面的子集)的部分pagerank策略(部分pagerank)與待爬行的URL隊列中的URL一起形成一組頁面,并在集合中計算pagerank;經(jīng)過計算,待爬行的URL隊列中的頁面根據(jù)pagerank得分由高到低排序,形成一個SE。那是履帶式拼接。應(yīng)依次向下爬行的URL列表。由于pagerank是一種全局算法,即當所有的頁面都被下載時,計算結(jié)果是可靠的,但是爬行器在爬行過程中只能接觸到部分頁面,所以爬行時不能進行可靠的pagerank計算,所以稱為不完全pagerank策略。

OCIP策略(在線頁面重要性計算)字面意思是“在線頁面重要性計算”,這是一種改進的pagerank算法。在算法開始之前,每個Internet頁面都被分配相同的值。當一個頁面p被下載時,p將它自己的值平均分配給頁面中包含的鏈接,同時清除它自己的值。對于要爬網(wǎng)的URL隊列中的網(wǎng)頁,優(yōu)先考慮根據(jù)現(xiàn)有值的大小下載值較大的網(wǎng)頁。

協(xié)同爬行策略(爬行加速策略)可以通過增加爬行器的數(shù)量來提高整體的爬行速度,但工作負載需要分解為不同的網(wǎng)絡(luò)爬行器,以確保分工清晰,防止多個爬行器在同一頁面上爬行,浪費資源。

通過分解網(wǎng)絡(luò)主機的IP地址,讓爬蟲只抓取中小型網(wǎng)站的一個網(wǎng)頁段,出于經(jīng)濟原因,通常在一臺服務(wù)器上提供不同的網(wǎng)絡(luò)服務(wù),使多個域名對應(yīng)一個IP段;而新浪、搜狐等大型網(wǎng)站通常使用負載均衡的IP gro。向上技術(shù),同一域名對應(yīng)多個。IP地址。因此,這種方法不方便。通過分解網(wǎng)頁的域名,爬蟲只能對網(wǎng)頁的域名部分進行爬蟲,并為不同的爬蟲分配不同的域名。

網(wǎng)站標題:從廣度優(yōu)化抓取策略研究搜索引擎蜘蛛爬行規(guī)則
分享網(wǎng)址:http://www.muchs.cn/news29/257529.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供建站公司網(wǎng)站維護、商城網(wǎng)站、App開發(fā)網(wǎng)站設(shè)計公司、動態(tài)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

營銷型網(wǎng)站建設(shè)