搜索引擎是如何抓取和收錄頁(yè)面的？

2022-09-11 分類：網(wǎng)站建設(shè)

搜索引擎對(duì)網(wǎng)頁(yè)的收錄是一個(gè)復(fù)雜的過(guò)程，簡(jiǎn)單來(lái)說(shuō)，收錄過(guò)程可以分為：抓取、過(guò)濾、建立索引和輸出結(jié)果。下面和大家簡(jiǎn)單說(shuō)一下這幾個(gè)步驟，讓你可以清楚你的網(wǎng)頁(yè)從你發(fā)布之后是如何被搜索引擎收錄并獲得相關(guān)排名的。

1、抓取

網(wǎng)站的頁(yè)面有沒(méi)有被搜索引擎收錄，首先要看一下網(wǎng)站的蜘蛛訪問(wèn)日志，看一下蜘蛛有沒(méi)有來(lái)，如果蜘蛛都沒(méi)有抓取，那是不可能被收錄的。蜘蛛訪問(wèn)網(wǎng)站的日志可以從網(wǎng)站的IIS日志里面看到，如果搜索引擎蜘蛛沒(méi)有來(lái)呢?那么就主動(dòng)向搜索引擎提交，搜索引擎會(huì)派出蜘蛛來(lái)抓取網(wǎng)站，這樣網(wǎng)站才有可能被盡快收錄。

如果你不會(huì)分析網(wǎng)站的日志也沒(méi)有關(guān)系，這里推薦愛(ài)站SEO工具包，將網(wǎng)站的日志導(dǎo)入到這個(gè)工具之后，就能看到日志的分析，你能從中得到很到信息。

廣度優(yōu)先抓取：廣度優(yōu)先抓取是按照網(wǎng)站的樹(shù)形結(jié)構(gòu)，對(duì)一個(gè)的層進(jìn)行的抓取，如果此層沒(méi)有抓取完成，蜘蛛不會(huì)進(jìn)行下一層的搜索。(關(guān)于網(wǎng)站的樹(shù)形結(jié)構(gòu)，會(huì)在后續(xù)的日志中進(jìn)行說(shuō)明，在沒(méi)有發(fā)布文章之后，在此會(huì)添加連接)

深度優(yōu)先抓?。荷疃葍?yōu)先抓取是按照網(wǎng)站的樹(shù)形結(jié)構(gòu)。按照一個(gè)連接，一直抓取下去，知道這一個(gè)連接沒(méi)有再往下的鏈接為止，深度優(yōu)先抓取又叫縱向抓取。

(注意：廣度優(yōu)先抓取，適用于所有情況下的搜索，但是深度優(yōu)先抓取不一定能適用于所有情況。因?yàn)橐粋€(gè)有解的問(wèn)題樹(shù)可能含有無(wú)窮分枝，深度優(yōu)先抓取如果誤入無(wú)窮分枝(即深度無(wú)限)，則不可能找到目標(biāo)結(jié)束點(diǎn)。所以，深度優(yōu)先抓取策略很多時(shí)候是不會(huì)被使用的，廣度優(yōu)先的抓取更加的保險(xiǎn)。)

廣度優(yōu)先抓取適用范圍：在未知樹(shù)深度情況下，用這種算法很保險(xiǎn)和安全。在樹(shù)體系相對(duì)小不龐大的時(shí)候，廣度優(yōu)先也會(huì)更好些。

深度優(yōu)先抓取適用范圍：剛才說(shuō)了深度優(yōu)先抓取有自己的缺陷，但是并不代表深度優(yōu)先抓取沒(méi)有自己的價(jià)值。在樹(shù)型結(jié)構(gòu)深度已知情況下，并且樹(shù)體系相當(dāng)龐大時(shí)，深度優(yōu)先搜索往往會(huì)比廣度優(yōu)先搜索優(yōu)秀。

2、過(guò)濾

網(wǎng)站的頁(yè)面被抓取了并不代表一定會(huì)被收錄。蜘蛛來(lái)抓取了之后，會(huì)把數(shù)據(jù)帶回去，放到臨時(shí)的數(shù)據(jù)庫(kù)中，再進(jìn)行過(guò)濾，過(guò)濾掉一些垃圾的內(nèi)容或者是低質(zhì)量的內(nèi)容。

你頁(yè)面的信息如果是采集，在互聯(lián)網(wǎng)上有大量的相同信息，搜索引擎就很有可能不為你的網(wǎng)頁(yè)建立索引。有時(shí)候我們自己寫(xiě)的文章也不會(huì)被收錄，因?yàn)樵瓌?chuàng)的不一定就是高質(zhì)量的。關(guān)于文章質(zhì)量的高低，我會(huì)在以后的文章中單獨(dú)拿出一篇來(lái)和大家詳細(xì)討論。

過(guò)濾這一過(guò)程就是一個(gè)去掉糟粕的過(guò)程，如果你的網(wǎng)站的頁(yè)面順利通過(guò)了過(guò)濾這一過(guò)程，說(shuō)明頁(yè)面的內(nèi)容達(dá)到了搜索引擎設(shè)定的標(biāo)準(zhǔn)，頁(yè)面會(huì)就會(huì)進(jìn)入建立索引和輸出結(jié)果這一步。

3、建立索引與輸出結(jié)果

這里，我們把建立索引和輸出結(jié)果合在一起進(jìn)行說(shuō)明。

通過(guò)一系列的過(guò)程之后，符合收錄的頁(yè)面之后會(huì)建立索引，建立索引之后就是輸出結(jié)果，也就是我們?cè)谒阉麝P(guān)鍵詞后，搜索引擎展示給我們的結(jié)果。

當(dāng)用戶在搜索關(guān)鍵詞時(shí)搜索引擎就會(huì)輸出結(jié)果，輸出的結(jié)果是有順序排列的。這些結(jié)果排序是根據(jù)一系列復(fù)雜的算法來(lái)排定的。比如：頁(yè)面的外鏈，頁(yè)面與關(guān)鍵詞的匹配度，頁(yè)面的多媒體屬性等。

在輸出的結(jié)果中，還有一些結(jié)果是通過(guò)抓取之后直接可以輸出的，沒(méi)有經(jīng)過(guò)中間復(fù)雜的過(guò)濾和建立索引等過(guò)程。什么樣的內(nèi)容和什么樣的情況下才會(huì)發(fā)生的呢?那就是具有很強(qiáng)的時(shí)效性的內(nèi)容，比如新聞?lì)惖?。比如今天發(fā)生了一件特大事件，各大門(mén)戶和新聞源快速發(fā)出了關(guān)于事件的新聞，搜索引擎會(huì)迅速對(duì)重大新聞事件作出反應(yīng)，快速收錄相關(guān)的內(nèi)容。

百度對(duì)于新聞的抓取速度是很快的，對(duì)重大事件的反應(yīng)也比較及時(shí)。但是這里還有一個(gè)問(wèn)題就是，這些發(fā)布的新聞如果有低質(zhì)量的頁(yè)面會(huì)怎么辦?搜索引擎會(huì)在輸出結(jié)果之后，仍然對(duì)這一部分新聞內(nèi)容進(jìn)行過(guò)濾，如果頁(yè)面內(nèi)容與新聞標(biāo)題不符，質(zhì)量過(guò)低，那么低質(zhì)量的頁(yè)面還是會(huì)被搜索引擎過(guò)濾掉。

在輸出結(jié)果的時(shí)候，搜索引擎會(huì)多多少少會(huì)對(duì)搜索結(jié)果進(jìn)行人工干預(yù)，其中以百度為最嚴(yán)重，在百度很多關(guān)鍵詞的自然搜索結(jié)果中被加入了百度太多自家的產(chǎn)品，而且很多是沒(méi)有考慮用戶體驗(yàn)的，這也是百度被大家詬病的原因之一，有興趣的朋友可以百度一個(gè)詞看一下搜索結(jié)果，是不是百度自家的產(chǎn)品占據(jù)了太多的首頁(yè)位置。

文章名稱：搜索引擎是如何抓取和收錄頁(yè)面的？
標(biāo)題鏈接：http://muchs.cn/news/194892.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供定制網(wǎng)站、外貿(mào)網(wǎng)站建設(shè)、云服務(wù)器、面包屑導(dǎo)航、網(wǎng)站內(nèi)鏈、網(wǎng)站排名

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

怎么樣判定南京企業(yè)網(wǎng)站做的好與壞 2022-09-11
微信營(yíng)銷如何寫(xiě)出高質(zhì)量的文章 2022-09-11
如何冷靜分析網(wǎng)站被降權(quán)的原因 2022-09-11
網(wǎng)站優(yōu)化關(guān)于如何制定網(wǎng)站SEO優(yōu)化方案 2022-09-11
網(wǎng)站推廣停止燒錢(qián)后該如何才能有效果? 2022-09-11
網(wǎng)站內(nèi)容的更新頻率對(duì)收錄的影響分析 2022-09-11

搜索引擎是如何抓取和收錄頁(yè)面的？

搜索引擎是如何抓取和收錄頁(yè)面的？