【網(wǎng)站優(yōu)化】關于百度蜘蛛對網(wǎng)站頁面爬行規(guī)律的一點分享

2022-01-26    分類: 網(wǎng)站建設

當網(wǎng)站有了蜘蛛來訪,你的網(wǎng)站頁面才有被收錄的可能,而百度蜘蛛會來爬行我們網(wǎng)站的html代碼,然后把數(shù)據(jù)拆分為標題、摘要、頭圖、正文等結構化數(shù)據(jù),帶回給百度的服務器,進行篩選放入數(shù)據(jù)庫,接下來是關于百度蜘蛛對網(wǎng)站頁面爬行規(guī)律的一點分享?!?b>百度優(yōu)化

現(xiàn)在的網(wǎng)站數(shù)量以百億計算,每個頁面都有快照備份是不現(xiàn)實的,所以百度蜘蛛會優(yōu)勝劣汰,就像是有探路的先鋒,有主力的部隊,有功能之分,其實并沒有高低權重之分。

百度蜘蛛對網(wǎng)站內(nèi)頁的爬行規(guī)律:

百度蜘蛛主要由收錄與快照兩種蜘蛛構成,通常123IP開頭的是收錄蜘蛛,220IP開頭的是快照蜘蛛,我們通過這兩種蜘蛛的日志訪問情況,基本上能判斷出這個網(wǎng)站在百度看來是不是一個優(yōu)質(zhì)的網(wǎng)站。

1、內(nèi)容有質(zhì)量的頁面:新發(fā)一篇文章后,通常是123開頭的蜘蛛先行,然后220開頭的蜘蛛后行,接著當天或隔1-2天,快照就會有更新。

2、404頁面爬取規(guī)律:當網(wǎng)站刪除了幾篇已收錄的內(nèi)頁訪問變成404后,123開頭的蜘蛛來爬取時,一般發(fā)現(xiàn)兩次404后,百度蜘蛛就不會來了。

3、文章內(nèi)容劣質(zhì)頁面:如果是用文章生成器生成的拼湊文章,排版亂無可讀性,123開頭的蜘蛛來了一次以后就沒有再來了。

那么百度蜘蛛爬行真正的邏輯應該是:123開頭蜘蛛打沖鋒,對網(wǎng)頁內(nèi)容進行篩選,以便減少不必要的服務器資源浪費;220開頭蜘蛛一般在123蜘蛛篩選過后才進入,如果網(wǎng)頁內(nèi)容實在劣質(zhì),220開頭的蜘蛛不會造訪;對于已經(jīng)收錄快照的頁面,是220開頭直接來訪。

  最后得出的結論如下:

1、123開頭的IP是收錄蜘蛛,所謂收錄蜘蛛是指百度蜘蛛造訪后,百度后端會通過一系列判定手段,如反作弊處理、原創(chuàng)度檢測等等,決定是否能夠可以收錄,是否可以牽引百度快照蜘蛛到訪。

2、220開頭的IP是快照蜘蛛,當快收錄蜘蛛檢測網(wǎng)頁通過了收錄標準之后,通過快照蜘蛛生成結構化數(shù)據(jù),進入倒排索引,這個時候的網(wǎng)頁才有快照,才能被用戶搜索到。

所以每次快照更新前,收錄蜘蛛、快照蜘蛛均有造訪,而收錄蜘蛛與快照蜘蛛訪問比率一般不超過2:1,如果收錄蜘蛛出現(xiàn)次數(shù)遠遠大于快照蜘蛛,說明網(wǎng)頁的內(nèi)容還不過關。


以上就是《關于百度蜘蛛對網(wǎng)站頁面爬行規(guī)律的一點分享》的全部內(nèi)容,僅供站長朋友們互動交流學習,SEO優(yōu)化是一個需要堅持的過程,希望大家一起共同進步。

當前題目:【網(wǎng)站優(yōu)化】關于百度蜘蛛對網(wǎng)站頁面爬行規(guī)律的一點分享
文章鏈接:http://muchs.cn/news/143261.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站建設、做網(wǎng)站、品牌網(wǎng)站制作、動態(tài)網(wǎng)站網(wǎng)站改版、網(wǎng)站建設

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

手機網(wǎng)站建設