網(wǎng)站優(yōu)化之頁(yè)面抓取過(guò)程分析

2021-10-01    分類: 網(wǎng)站建設(shè)

收錄是指網(wǎng)頁(yè)被搜索引擎抓取到,然后放到搜索引擎的庫(kù)里,等到人們搜索相關(guān)詞匯的時(shí)候,可以在搜索結(jié)果頁(yè)展示列表看到已經(jīng)收錄的頁(yè)面及頁(yè)面信息。我們所說(shuō)的“網(wǎng)頁(yè)被收錄”即能在搜索結(jié)果頁(yè)看到相關(guān)的頁(yè)面。反之,“網(wǎng)頁(yè)沒(méi)有被收錄”問(wèn)題就復(fù)雜一些,因?yàn)樵谒阉鹘Y(jié)果頁(yè)沒(méi)有看到對(duì)應(yīng)的頁(yè)面,并不意味著網(wǎng)頁(yè)就沒(méi)在搜索引擎的庫(kù)里,或者說(shuō)就沒(méi)有被收錄,有可能是網(wǎng)頁(yè)針對(duì)當(dāng)前的搜索詞匯排名不好,在760個(gè)記錄之外,因此沒(méi)有得到展示。
收錄涉及網(wǎng)頁(yè)被搜索引擎蜘蛛抓取,然后被編入搜索引擎的索引庫(kù),并在前端被用戶搜索到這一系列的過(guò)程。對(duì)SEO人員或者希望對(duì)自己網(wǎng)站進(jìn)行優(yōu)化的非專業(yè)SEO人員來(lái)說(shuō),了解頁(yè)面是如何被搜索引擎收錄的,了解搜索引擎的收錄原理,都是極有好處的,能幫助你在進(jìn)行網(wǎng)站SEO的時(shí)候盡量遵循收錄的規(guī)律,提高網(wǎng)站被收錄的比例。
搜索引擎在抓取網(wǎng)頁(yè)的時(shí)候,可能會(huì)遇到各種情況,有的頁(yè)面抓取成功,有的抓取失敗。怎么顯示一個(gè)頁(yè)面的實(shí)際抓取結(jié)果呢主要是通過(guò)返回碼進(jìn)行示意,代表抓取成功與否和遇到的問(wèn)題。比如我們常見(jiàn)的,有時(shí)候打開一個(gè)頁(yè)面,頁(yè)面一片空白,上面只顯示404。這里的404就是一種返回碼,代表當(dāng)前抓取的頁(yè)面已經(jīng)失效,遇到顯示404的頁(yè)面,如果短期內(nèi)搜索,蜘蛛再發(fā)現(xiàn)這個(gè)URL,也不會(huì)對(duì)其進(jìn)行抓取。
有時(shí)候,會(huì)返回503,503返回碼代表網(wǎng)站臨時(shí)無(wú)法訪問(wèn),可能是網(wǎng)站服務(wù)器關(guān)閉或者其他臨時(shí)措施造成的網(wǎng)頁(yè)無(wú)法訪問(wèn),一般來(lái)說(shuō),蜘蛛還會(huì)繼續(xù)抓取幾次。如果網(wǎng)站恢復(fù)正常,URL仍然被當(dāng)作正常URI。處理,如果服務(wù)器一直處于不可訪問(wèn)狀態(tài),那么搜索引擎就會(huì)將這些URL徹底從庫(kù)中刪除,這就要求我們必須維護(hù)網(wǎng)站的穩(wěn)定性,盡量避免臨時(shí)關(guān)閉的情況發(fā)生。返回碼403是禁止訪問(wèn)狀態(tài),一般來(lái)說(shuō),如同503一樣,如被多次訪問(wèn)仍處于禁止訪問(wèn)狀態(tài),就會(huì)被搜索引擎從庫(kù)里面刪除。
在返回碼中,有一類需要格外注意,就是301。301代表永久性移除,當(dāng)前URL被永久性重定向到另外的uRL。一般來(lái)說(shuō),因?yàn)楦陌娴仍颍糠諹RL需要永久被替換為新URL,就必須使用返回碼301進(jìn)行處理,這樣能把權(quán)重等一并帶過(guò)去,避免網(wǎng)站的流量損失。
返回碼301的優(yōu)化寫法如下。
(1)創(chuàng)建一個(gè)htaccess.txt文件。
(2)在htaccess.txt里寫好返回碼30l的跳轉(zhuǎn)信息。
假設(shè)舊的URL為abc.com,需要重定向到www.abc.com,需在文件里寫如下信息。
RewriteEngine on
RewriteCond%{http_host}abc.com[NC]
RewriteRule^(.*)$ http://www.abc.com/$1[L,R=301]
(3)將htaccess.txt上傳到FTP,然后將htaccess.txt修改為.htaccess。
需要提醒的是目前htaccess只適用于Linux系統(tǒng),并需要虛擬主機(jī)支持,因此,在考慮htaccess文件處理返回碼301的時(shí)候,需要查看虛擬主機(jī)是否完全支持。
實(shí)際上,在重定向的處理上存在多種方式,簡(jiǎn)單來(lái)說(shuō),重定向可以分為http30x重定向、meta refresh重定向和js重定向。另外,大的搜索引擎公司,比如谷歌和百度都確認(rèn)支持Canonical標(biāo)簽,可以通過(guò)制定一個(gè)權(quán)威頁(yè)面的方式,引導(dǎo)蜘蛛只索引一個(gè)權(quán)威頁(yè)面,從實(shí)際效果上來(lái)說(shuō),也是一種間接的重定向。在實(shí)際抓取過(guò)程中,蜘蛛會(huì)對(duì)各種重定向效果進(jìn)行識(shí)別。
重定向的方法有多種,但是從SEO角度來(lái)說(shuō),如果是永久跳轉(zhuǎn)的頁(yè)面,盡量在采用返回碼301的跳轉(zhuǎn)方式。另外,從
時(shí)間結(jié)果來(lái)看,百度對(duì)Canonical的支持并不如谷歌好,采用Canonical未必能得到如期效果。有些網(wǎng)站通過(guò)不同的路徑進(jìn)入同
一頁(yè)面,可能會(huì)出現(xiàn)多個(gè)URL的情況,當(dāng)面對(duì)這種情況時(shí),可能需要一些處理技巧,關(guān)于Canonical的使用技術(shù)可參見(jiàn)本書關(guān)于Canonical的專門講解。
外鏈等因素對(duì)搜索的排名是有影響的,那么在抓取環(huán)節(jié)是否也有影響呢百度在它的抓取政策上有優(yōu)先級(jí)的說(shuō)明,即執(zhí)行包括“深度優(yōu)先遍歷策略、寬度優(yōu)先遍歷策略、PR優(yōu)先策略、反鏈策略、社會(huì)化分享指導(dǎo)策略等”。同時(shí),這也說(shuō)明每個(gè)策略各有優(yōu)劣,在實(shí)際情況中往往是多種策略結(jié)合使用才能達(dá)到最優(yōu)的抓取效果。從這段官方說(shuō)明里面可以看到PR優(yōu)先策略、反鏈策略、社會(huì)化分享等字眼,我們可以認(rèn)為,百度在實(shí)際抓取的時(shí)候,其實(shí)都考慮了這些因素,只是權(quán)重可能有所不同,因此,盡量提高網(wǎng)頁(yè)P(yáng)R,增加更高質(zhì)量的外鏈,進(jìn)行高質(zhì)量的社會(huì)化分享,對(duì)網(wǎng)站的SEO工作是有積極意義的。
另外,針對(duì)互聯(lián)網(wǎng)存在的大量“盜版”“采集”的網(wǎng)頁(yè)情況,在抓取的過(guò)程中,蜘蛛會(huì)通過(guò)技術(shù)判斷頁(yè)面是否已經(jīng)被抓取過(guò),并對(duì)URI.不同但是實(shí)際內(nèi)容相同的頁(yè)面的URL進(jìn)行歸一化處理,即視作一個(gè)URL,。也就是告訴SEO人員,不要通過(guò)大量創(chuàng)建頁(yè)面的方式來(lái)獲得更多的搜索資源,如果頁(yè)面很多,但是每個(gè)頁(yè)面的內(nèi)容重復(fù)性很高,或者僅是uRL中包含無(wú)效參數(shù)來(lái)實(shí)現(xiàn)多個(gè)頁(yè)面,搜索引擎仍然把這些URI。當(dāng)作一個(gè)uRL處理,即網(wǎng)站頁(yè)面不是越多越好,通過(guò)功利的方式拼湊網(wǎng)頁(yè),大量部署長(zhǎng)尾,但是頁(yè)面質(zhì)量堪憂,效果會(huì)適得其反。如果大量此類頁(yè)面被搜索引擎判斷為低質(zhì)量頁(yè)面,可能會(huì)影響到整站的SEO效果。
蜘蛛在抓取的過(guò)程實(shí)際是依據(jù)鏈接不斷往下探索的過(guò)程,如果鏈接之間出現(xiàn)短路,蜘蛛就無(wú)法往前爬了。在真實(shí)的網(wǎng)站運(yùn)營(yíng)中,我們可以看到很多網(wǎng)頁(yè)實(shí)際潛藏在網(wǎng)站后端,蜘蛛是無(wú)法抓取到的,比如沒(méi)有預(yù)留入口鏈接,或者入口鏈接已經(jīng)失效等,這些無(wú)法抓取到的內(nèi)容和信息,對(duì)于蜘蛛來(lái)說(shuō)就是一個(gè)個(gè)的孤島,對(duì)SEO人員來(lái)說(shuō)就是沒(méi)有完全發(fā)揮內(nèi)容的引流作用。同時(shí),因?yàn)榫W(wǎng)絡(luò)環(huán)境或者網(wǎng)站規(guī)范等原因也可能導(dǎo)致蜘蛛無(wú)法爬行。
如何解決信息無(wú)法被抓取到的問(wèn)題幾個(gè)可行的辦法如下。
?采用搜索引擎平臺(tái)提供的開發(fā)平臺(tái)等數(shù)據(jù)上傳通道,可以針對(duì)數(shù)據(jù)進(jìn)行獨(dú)立的提交。
?采用Sitemap提交方式。大型網(wǎng)站或者結(jié)構(gòu)比較特殊的網(wǎng)站,沉淀了大量的歷史頁(yè)面,這些歷史頁(yè)面很多具有SEO的價(jià)值,但是蜘蛛無(wú)法通過(guò)正常的爬行抓取到,針對(duì)這些頁(yè)面,建立Sitemap文件并提交給百度等搜索引擎是非常必要的。
蜘蛛在爬行網(wǎng)站的時(shí)候,會(huì)遵循網(wǎng)站的協(xié)議進(jìn)行抓取,比如哪些網(wǎng)頁(yè)可以給搜索引擎抓取,哪些不允許搜索引擎抓取。常見(jiàn)的協(xié)議有HTTP協(xié)議、HTTPS協(xié)議、Robots協(xié)議等。
HTTP協(xié)議規(guī)范了客戶端和服務(wù)器端請(qǐng)求和應(yīng)答的標(biāo)準(zhǔn)??蛻舳艘话闶侵附K端用戶,服務(wù)器端指網(wǎng)站。終端用戶通過(guò)瀏覽器、蜘蛛等向服務(wù)器指定端口發(fā)送HTTP請(qǐng)求。發(fā)送HTTP請(qǐng)求會(huì)返回對(duì)應(yīng)的HTTP Header信息,我們可以看到包括是否成功、服務(wù)器類型、網(wǎng)頁(yè)最近更新時(shí)間等內(nèi)容。HTTPS協(xié)議是一種加密協(xié)議,一般用戶安全數(shù)據(jù)的傳輸。HTTPS是在HTTP下增加了SSL層,這類頁(yè)面應(yīng)用比較多的是和支付相關(guān)或者內(nèi)部保密信息相關(guān)的網(wǎng)頁(yè)。蜘蛛不會(huì)自動(dòng)爬行該類網(wǎng)頁(yè)。因此,從SEO角度考慮,在建站的時(shí)候,盡量對(duì)頁(yè)面的性質(zhì)進(jìn)行區(qū)分,對(duì)非保密頁(yè)面進(jìn)行HTTP處理,才能實(shí)現(xiàn)網(wǎng)頁(yè)的抓取和收錄。

網(wǎng)站題目:網(wǎng)站優(yōu)化之頁(yè)面抓取過(guò)程分析
文章路徑:http://www.muchs.cn/news31/129281.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供小程序開發(fā)、外貿(mào)網(wǎng)站建設(shè)、網(wǎng)站內(nèi)鏈網(wǎng)站營(yíng)銷、域名注冊(cè)、品牌網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都網(wǎng)頁(yè)設(shè)計(jì)公司