從廣度優(yōu)化抓取策略研究搜索引擎蜘蛛爬行規(guī)則

2023-05-01 分類：網(wǎng)站建設(shè)

搜索引擎處理大量的網(wǎng)頁。一方面，為了節(jié)省帶寬、計(jì)算和存儲(chǔ)資源，另一方面，為了滿足用戶的搜索需求，使用有限的資源來捕獲最有價(jià)值的網(wǎng)頁，因此搜索引擎在處理大量網(wǎng)頁時(shí)會(huì)有一定的策略。本文簡(jiǎn)要介紹了網(wǎng)絡(luò)爬行的主要策略，如廣度優(yōu)先、深度遍歷策略、非重復(fù)爬行策略、大站點(diǎn)優(yōu)先策略、不完全pagerank策略、OCIP策略、協(xié)同爬行策略。

深度優(yōu)先，深度優(yōu)先的遍歷策略；廣度優(yōu)先的原因是重要的網(wǎng)頁往往接近種子網(wǎng)站；萬維網(wǎng)的深度沒有我們預(yù)期的那么深，而是出乎意料的深（中國(guó)萬維網(wǎng)只有17個(gè)直徑和長(zhǎng)度，即在任意兩個(gè)網(wǎng)頁之間可以訪問17次）；多履帶協(xié)同抓取深度優(yōu)先的不利結(jié)果：容易使履帶陷入死區(qū)，不應(yīng)重復(fù)抓?。徊粦?yīng)抓住機(jī)會(huì)；

解決上述兩個(gè)缺點(diǎn)的方法是深度優(yōu)先抓取和非重復(fù)抓取策略；防止履帶從無限期地以寬度優(yōu)先抓取，必須在一定的深度抓取。達(dá)到此深度即萬維網(wǎng)的直徑和長(zhǎng)度后，限制程度并停止抓取。當(dāng)爬行停止在大深度時(shí)，那些太深而沒有爬行的頁面總是期望從其他種子站點(diǎn)更經(jīng)濟(jì)地到達(dá)。

限制抓取深度會(huì)破壞死循環(huán)的條件，即使循環(huán)發(fā)生，也會(huì)在有限的次數(shù)后停止。評(píng)價(jià)：寬度優(yōu)先、深度優(yōu)先的遍歷策略可以有效地保證爬行過程的緊密性，即在爬行過程（遍歷路徑）中，總是對(duì)同一域名下的網(wǎng)頁進(jìn)行爬行，而對(duì)其他域名下的網(wǎng)頁則很少。

無重復(fù)抓取策略保證了一個(gè)變化不大的網(wǎng)頁只能被抓取一次，防止重復(fù)抓取占用大量的CPU和帶寬資源，從而集中有限的資源區(qū)域來抓取更重要、更高質(zhì)量的網(wǎng)頁。Larser網(wǎng)站優(yōu)先通常是大型網(wǎng)站的高質(zhì)量?jī)?nèi)容，網(wǎng)頁質(zhì)量一般較高。從網(wǎng)站的角度衡量網(wǎng)頁的重要性有一定的依據(jù)。對(duì)于要爬網(wǎng)的URL隊(duì)列中的頁面，下載優(yōu)先級(jí)由等待下載的頁面數(shù)決定。

下載頁面（不完整Internet頁面的子集）的部分pagerank策略（部分pagerank）與待爬行的URL隊(duì)列中的URL一起形成一組頁面，并在集合中計(jì)算pagerank；經(jīng)過計(jì)算，待爬行的URL隊(duì)列中的頁面根據(jù)pagerank得分由高到低排序，形成一個(gè)SE。那是履帶式拼接。應(yīng)依次向下爬行的URL列表。由于pagerank是一種全局算法，即當(dāng)所有的頁面都被下載時(shí)，計(jì)算結(jié)果是可靠的，但是爬行器在爬行過程中只能接觸到部分頁面，所以爬行時(shí)不能進(jìn)行可靠的pagerank計(jì)算，所以稱為不完全pagerank策略。

OCIP策略（在線頁面重要性計(jì)算）字面意思是“在線頁面重要性計(jì)算”，這是一種改進(jìn)的pagerank算法。在算法開始之前，每個(gè)Internet頁面都被分配相同的值。當(dāng)一個(gè)頁面p被下載時(shí)，p將它自己的值平均分配給頁面中包含的鏈接，同時(shí)清除它自己的值。對(duì)于要爬網(wǎng)的URL隊(duì)列中的網(wǎng)頁，優(yōu)先考慮根據(jù)現(xiàn)有值的大小下載值較大的網(wǎng)頁。

協(xié)同爬行策略（爬行加速策略）可以通過增加爬行器的數(shù)量來提高整體的爬行速度，但工作負(fù)載需要分解為不同的網(wǎng)絡(luò)爬行器，以確保分工清晰，防止多個(gè)爬行器在同一頁面上爬行，浪費(fèi)資源。

通過分解網(wǎng)絡(luò)主機(jī)的IP地址，讓爬蟲只抓取中小型網(wǎng)站的一個(gè)網(wǎng)頁段，出于經(jīng)濟(jì)原因，通常在一臺(tái)服務(wù)器上提供不同的網(wǎng)絡(luò)服務(wù)，使多個(gè)域名對(duì)應(yīng)一個(gè)IP段；而新浪、搜狐等大型網(wǎng)站通常使用負(fù)載均衡的IP gro。向上技術(shù)，同一域名對(duì)應(yīng)多個(gè)。IP地址。因此，這種方法不方便。通過分解網(wǎng)頁的域名，爬蟲只能對(duì)網(wǎng)頁的域名部分進(jìn)行爬蟲，并為不同的爬蟲分配不同的域名。

新聞標(biāo)題：從廣度優(yōu)化抓取策略研究搜索引擎蜘蛛爬行規(guī)則
文章地址：http://www.muchs.cn/news/257529.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供搜索引擎優(yōu)化、響應(yīng)式網(wǎng)站、手機(jī)網(wǎng)站建設(shè)、營(yíng)銷型網(wǎng)站建設(shè)、標(biāo)簽優(yōu)化、網(wǎng)站策劃

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容