蜘蛛爬行抓取的地址庫(kù)和文件存儲(chǔ)

2022-04-12 分類：網(wǎng)站建設(shè)

地址庫(kù)
為了避免重復(fù)爬行和抓取網(wǎng)址，搜索引擎會(huì)建立一個(gè)地址庫(kù)，記錄已經(jīng)被發(fā)現(xiàn)還沒有抓取的頁(yè)面，以及已經(jīng)被抓取的頁(yè)面地址庫(kù)中的URL有幾個(gè)來(lái)源:

(1)人工錄入的種子網(wǎng)站。
(2)蜘蛛抓取頁(yè)面后，從HTML中解析出新的鏈接URL與地址庫(kù)中的數(shù)據(jù)進(jìn)行對(duì)比，如果是地址庫(kù)中沒有的網(wǎng)址，就存入待訪問地址庫(kù)。
(3)站長(zhǎng)通過搜索引擎網(wǎng)頁(yè)提交表格提交進(jìn)來(lái)的網(wǎng)址。
蜘蛛按重要性從待訪問地址庫(kù)中提取URL，訪問并抓取頁(yè)面，然后把這個(gè)URL，從待訪問地址庫(kù)中刪除，放進(jìn)已訪問地址庫(kù)中。
大部分主流搜索引擎都提供一個(gè)表格，讓站長(zhǎng)提交網(wǎng)址。不過這些提交來(lái)的網(wǎng)址都只是存入地址庫(kù)而已，是否收錄還要看頁(yè)面重要性如何。搜索引擎所收錄的絕大部分頁(yè)面是蜘蛛自己跟蹤鏈接得到的。可以說(shuō)提交頁(yè)面基本上是毫無(wú)用處的，搜索引擎更喜歡自己沿著鏈接發(fā)現(xiàn)新頁(yè)面。
文件存儲(chǔ)
搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁(yè)面蕪湖網(wǎng)站設(shè)計(jì)數(shù)據(jù)庫(kù)。其中的頁(yè)面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的，每個(gè)URL都有一個(gè)獨(dú)特的文件編號(hào) 。

分享標(biāo)題：蜘蛛爬行抓取的地址庫(kù)和文件存儲(chǔ)
鏈接URL：http://www.muchs.cn/news25/145525.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)頁(yè)設(shè)計(jì)公司、微信小程序、虛擬主機(jī)、網(wǎng)站設(shè)計(jì)、Google、標(biāo)簽優(yōu)化

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容