如何能做到使蜘蛛逆向爬行索引

2021-10-13 分類(lèi)：網(wǎng)站建設(shè)

首先，我們要來(lái)個(gè)免責(zé)聲明-他們并不一定是必要的-但以防萬(wàn)一…但你必須注意的是，這些是一個(gè)概念化的東西，至少我是這樣認(rèn)為的，還沒(méi)有進(jìn)行實(shí)際的測(cè)試和實(shí)踐證明。蜘蛛的逆向爬行…至少我第一次起這個(gè)名字的時(shí)候我是這樣想的。這種想法來(lái)源于很多的地方：網(wǎng)站的頁(yè)面的深度如果很高的話那對(duì)爬行和索引來(lái)說(shuō)都是一個(gè)挑戰(zhàn)，因?yàn)樗麄兊慕Y(jié)構(gòu)很深，擁有大量的頁(yè)面，會(huì)有爬行的障礙(例如那些大量基于參數(shù)的URL或者那些被認(rèn)為沒(méi)有什么價(jià)值的頁(yè)面，這種情況會(huì)經(jīng)常出現(xiàn)在一些電子商務(wù)的網(wǎng)站。)

或者一個(gè)網(wǎng)站希望能夠盡可能的充分并迅速的被索引(也許一個(gè)網(wǎng)站添加了新的內(nèi)容，它的URL就會(huì)發(fā)生戲劇化的改變，盡管301已經(jīng)被定位了，或者這是一個(gè)新的站點(diǎn))。因此，怎樣才能使網(wǎng)站能夠被正常的爬行和索引通常是通過(guò)以下的幾種方式：發(fā)現(xiàn)：搜索引擎蜘蛛會(huì)根據(jù)鏈接進(jìn)入到你的網(wǎng)站提交：一個(gè)站長(zhǎng)會(huì)把站點(diǎn)和頁(yè)面提交給搜索引擎XML網(wǎng)站地圖：一個(gè)站長(zhǎng)給他們的網(wǎng)站創(chuàng)建一個(gè)XML網(wǎng)站地圖，并通過(guò)搜索引擎使他們變得有效，或者就把它放在網(wǎng)站的根目錄作為一個(gè)網(wǎng)站地圖或者利用ROBOTS文件來(lái)進(jìn)行自動(dòng)搜索。

這些方法都是優(yōu)點(diǎn)和缺點(diǎn)的，但是他們至少解決了如何讓蜘蛛進(jìn)入他們的站點(diǎn)，通過(guò)使用XML網(wǎng)站地圖，可以幫助蜘蛛越過(guò)一些爬行的障礙。無(wú)論是直接還是間接，主頁(yè)被發(fā)現(xiàn)了。那么蜘蛛就會(huì)按照他們自己的路線進(jìn)行爬行。從頂級(jí)的導(dǎo)航到第二層讓后到子導(dǎo)航，爬行到頂級(jí)的分類(lèi)頁(yè)面，通過(guò)子分類(lèi)的界面，然后到更深的產(chǎn)品和信息頁(yè)面。反過(guò)來(lái)說(shuō)，你想進(jìn)行索引的這些頁(yè)面同時(shí)占領(lǐng)了頭部和長(zhǎng)尾的搜索。這些也很有可能是產(chǎn)生交易或者是轉(zhuǎn)化的頁(yè)面。

蜘蛛來(lái)到你頁(yè)面的頻率是多少它們一次性通常會(huì)爬多少頁(yè)面新的頁(yè)面會(huì)多久才會(huì)被發(fā)現(xiàn)和抓取相對(duì)而言舊的頁(yè)面會(huì)多久被發(fā)現(xiàn)和抓取本質(zhì)上來(lái)說(shuō)，應(yīng)該平衡抓取，這就解釋了為什么排除重復(fù)性內(nèi)容的重要性。你不想心愛(ài)的蜘蛛把時(shí)間浪費(fèi)在爬過(guò)和收錄過(guò)的內(nèi)容。

當(dāng)你為一些大型的網(wǎng)站指出這些問(wèn)題的話，你發(fā)現(xiàn)想讓蜘蛛去爬行和喜歡的URL實(shí)在是多的讓人覺(jué)得可怕，即使沒(méi)有那些隱藏著的爬行障礙。請(qǐng)記住，甚至是XML網(wǎng)站地圖，每個(gè)網(wǎng)站地圖最多只能包括50000個(gè)URL，最少20個(gè)單獨(dú)的網(wǎng)站地圖的話加起來(lái)就會(huì)有1000000個(gè)頁(yè)面。

要說(shuō)的是，我要提醒大家這種情況并不適用于所有的網(wǎng)站和情況。這種“蜘蛛逆向爬行”的基礎(chǔ)和使用XML網(wǎng)站地圖是有些不同的。典型的XML網(wǎng)站地圖策略是要提交每一個(gè)URL，就是希望每個(gè)頁(yè)面都能被索引。這也許不是最好的策略，但是這是另外一個(gè)問(wèn)題了。即使那樣，這些策略往往會(huì)給首頁(yè)過(guò)多的權(quán)重和優(yōu)先權(quán)。

恰恰相反，我們應(yīng)該把網(wǎng)站地圖的重點(diǎn)放在一些低等級(jí)的頁(yè)面上。通常都是單個(gè)的產(chǎn)品和信息頁(yè)面。這種思想就是讓蜘蛛去那些最深層最難爬的頁(yè)面。它們之后還會(huì)去哪兒呢他們會(huì)按照蜘蛛做的那樣做，開(kāi)始爬行。想想這些深層次的頁(yè)面。但愿他們內(nèi)容豐富并且富有關(guān)鍵詞。他們也許包括一些可以導(dǎo)航的元素，即使不是完全的高等級(jí)的導(dǎo)航，至少是一些分類(lèi)導(dǎo)航。如果網(wǎng)站有類(lèi)似的面包屑導(dǎo)航的話，我們可以直接喂給蜘蛛這些面包屑。在這點(diǎn)上，我們應(yīng)該更好的以更多的方式給蜘蛛展現(xiàn)我們的網(wǎng)站。這個(gè)觀念也許并不是關(guān)于逆向爬行的，反而是關(guān)于讓蜘蛛從兩個(gè)底端開(kāi)始爬行，這樣的爬行最終也能到頂部的導(dǎo)航。

我們通常會(huì)假設(shè)蜘蛛會(huì)很自然的首先去找首頁(yè)然后順勢(shì)往下爬遍整個(gè)網(wǎng)站。和那些多樣化的產(chǎn)品等級(jí)的頁(yè)面相比從主頁(yè)到頂層頁(yè)面有多少個(gè)唯一的URL我的猜想是因?yàn)轫?yè)面深度的不同，兩個(gè)等級(jí)的頁(yè)面的抓取數(shù)量是有很大的不同的。正如我提到的，我認(rèn)為這是一個(gè)低風(fēng)險(xiǎn)的路線。無(wú)論有沒(méi)有xml網(wǎng)站地圖，蜘蛛們都能找到頁(yè)面的。他們會(huì)找到不在網(wǎng)站地圖中的頁(yè)面，因此即使是一個(gè)沒(méi)有首頁(yè)和頂級(jí)頁(yè)面的網(wǎng)站地圖，也不會(huì)遺漏掉這些頁(yè)面。在自然環(huán)境下，也許不會(huì)出現(xiàn)這些問(wèn)題。蜘蛛會(huì)迅速爬過(guò)整個(gè)網(wǎng)站。一旦他們發(fā)現(xiàn)了鏈接他們就會(huì)追根究底。也許這些頁(yè)面埋得太深了，他們有點(diǎn)兒不太喜歡。

無(wú)論如何，讓這些網(wǎng)頁(yè)被爬到和索引是很重要的，對(duì)于我的站來(lái)說(shuō)這的確是一個(gè)艱難的過(guò)程?；蛟S這只是一個(gè)時(shí)間問(wèn)題。至少我要去嘗試。一旦像我想象的那樣整個(gè)網(wǎng)站的那個(gè)等級(jí)的頁(yè)面都被建立了索引，我就可以繼續(xù)并在XML網(wǎng)站地圖中添加其他的URL，或者我可以做個(gè)實(shí)驗(yàn)，不把網(wǎng)站地圖放在網(wǎng)站里。

新聞名稱(chēng)：如何能做到使蜘蛛逆向爬行索引
URL分享：http://muchs.cn/news44/131044.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供做網(wǎng)站、微信小程序、靜態(tài)網(wǎng)站、商城網(wǎng)站、企業(yè)建站、域名注冊(cè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容