網(wǎng)站數(shù)據(jù)抓取與頁(yè)面流量排名深度分析

2022-12-23    分類(lèi): 網(wǎng)站建設(shè)

從關(guān)鍵詞,到內(nèi)容和頁(yè)面,完成了需求分析和生產(chǎn)。內(nèi)容在頁(yè)面上如何布局,如果處理好內(nèi)容的結(jié)構(gòu)化,從而更符合搜索引擎的口味,還有很多細(xì)致的工作要做,這里不展開(kāi)。

抓取與收錄

搜索結(jié)果頁(yè)是站點(diǎn)之間競(jìng)爭(zhēng)用戶(hù)的戰(zhàn)場(chǎng),要想在競(jìng)爭(zhēng)中獲勝,首先你得站到戰(zhàn)場(chǎng)上去。根據(jù)之前說(shuō)到的搜索引擎的原理,我們知道,要在搜索結(jié)果頁(yè)中出現(xiàn),首先生產(chǎn)的頁(yè)面要被搜索引擎的蜘蛛抓取。蜘蛛發(fā)現(xiàn)網(wǎng)頁(yè),正常情況下是通過(guò)站內(nèi)的鏈接,和站外的鏈接,按照廣度優(yōu)先的原則,提取頁(yè)面中導(dǎo)出的URL。一般來(lái)說(shuō),站長(zhǎng)還可以通過(guò)提交Sitemap,Ping通知蜘蛛,手動(dòng)提交等方式,幫助蜘蛛發(fā)現(xiàn)有效的URL。

頁(yè)面數(shù)據(jù)抓取

前面說(shuō)到,通過(guò)鏈接抓取網(wǎng)頁(yè),按照廣度優(yōu)先的原則。一般的小站,搜索引擎從起點(diǎn)頁(yè)抓取三四層的深度也就不錯(cuò)了,一般這個(gè)起點(diǎn)頁(yè)都是網(wǎng)站首頁(yè)。所以SEO要將網(wǎng)站整體設(shè)計(jì)成扁平的結(jié)構(gòu),有些時(shí)候需要為蜘蛛搭一些梯子,幫助它在較短路徑上接觸到更多的URL。舉個(gè)例子,

網(wǎng)頁(yè)數(shù)據(jù)抓取

一般情況下,一個(gè)頁(yè)面內(nèi)導(dǎo)出鏈接不能過(guò)多,超過(guò)某個(gè)值蜘蛛就不抓了。之前的經(jīng)驗(yàn)是100,但是這個(gè)數(shù)值還是跟網(wǎng)站和具體頁(yè)面有關(guān)。在網(wǎng)站層級(jí)和單頁(yè)導(dǎo)出鏈接總量?jī)蓚€(gè)約束條件下,還有一點(diǎn)文章可做,那就是時(shí)間。單個(gè)頁(yè)面導(dǎo)出鏈接最多是100,如果我每天換掉其中的50個(gè)呢? 一個(gè)最簡(jiǎn)單的實(shí)現(xiàn)方式是借助于緩存機(jī)制,固定的取50個(gè),另外再在全集中隨機(jī)取50個(gè),這50個(gè)設(shè)置緩存時(shí)間1天,1天后失效,再隨機(jī)取50個(gè),這樣可以大化導(dǎo)出鏈接的時(shí)效性,就像廣告的分時(shí)段輪播一樣。這里的數(shù)字可以根據(jù)實(shí)效進(jìn)行調(diào)整。站內(nèi)如此,對(duì)于批量交換的外鏈,也可以按照類(lèi)似的方式實(shí)現(xiàn)。

對(duì)于移動(dòng)頁(yè)面,有兩種主要的機(jī)制通知到蜘蛛PC頁(yè)與移動(dòng)頁(yè)的對(duì)應(yīng)關(guān)系,一是在PC頁(yè)頭部加上mobile-agent的meta屬性,二是在站長(zhǎng)工具提交PC/移動(dòng)頁(yè)對(duì)應(yīng)關(guān)系的正則(也可以提交全量的URL地址對(duì))。

抓取這個(gè)環(huán)節(jié)至關(guān)重要,站長(zhǎng)平臺(tái)的抓取頻次,和通過(guò)accesslog分析得到的抓取明細(xì),都需要時(shí)刻監(jiān)控。小站的log文件,市面上有些一些日志分析工具,自己寫(xiě)也OK。對(duì)于大站的log,很多都存儲(chǔ)于hadoop這樣的分布式存儲(chǔ)上,一般需要定制程序去分析處理。為了即時(shí)分析處理,快速反饋,可能需要接入流式計(jì)算框架。

對(duì)于蜘蛛抓取行為數(shù)據(jù)的使用,可以用來(lái)評(píng)估蜘蛛對(duì)于站內(nèi)頁(yè)面價(jià)值的評(píng)定,可以用來(lái)反饋輔助抓取所做的一些優(yōu)化的效果,可以預(yù)估新生成頁(yè)面被搜索引擎接受的程度,等等。沒(méi)有使用價(jià)值的數(shù)據(jù)是沒(méi)用的,數(shù)據(jù)跟具體的應(yīng)用場(chǎng)景結(jié)合起來(lái),才能體現(xiàn)其價(jià)值。

對(duì)于抓取的頁(yè)面,蜘蛛建立倒排索引后,會(huì)進(jìn)行價(jià)值判定,按照價(jià)值高低,存儲(chǔ)在分級(jí)索引庫(kù)中。高級(jí)別的索引庫(kù)才會(huì)參與最終的搜索排序。

前段時(shí)間,圈子里流出了百度的一個(gè)搜索參數(shù),tn=json,以seo這個(gè)詞為例,查詢(xún)百度搜索前50條結(jié)果,查詢(xún)URL為,

http://www.baidu.com/s?wd=seo&pn=0&rn=50&tn=json

對(duì)于有程序基礎(chǔ)的同學(xué)們,json格式比網(wǎng)頁(yè)更易于處理。

這個(gè)方法只適用于PC端,對(duì)于移動(dòng)端的收錄情況的判斷,還是要老老實(shí)實(shí)的拼接搜索地址URL,解析相應(yīng)結(jié)果文檔。

一般SEO開(kāi)始學(xué)的時(shí)候,都會(huì)接觸到site語(yǔ)法,基本上所有常見(jiàn)的搜索引擎也都支持site語(yǔ)法去查詢(xún)域名或者目錄級(jí)的收錄量查詢(xún)。在site查詢(xún)語(yǔ)句的后面加上一個(gè)詞,可以查詢(xún)得到該域名與這個(gè)詞相關(guān)的頁(yè)面。比較有價(jià)值的是,site語(yǔ)法查出來(lái)的結(jié)果,按照網(wǎng)頁(yè)的價(jià)值倒序排列。這個(gè)特征便使得依據(jù)相關(guān)性?xún)?nèi)鏈,提升第二頁(yè)/第三頁(yè)落地頁(yè)的排名成為可能。

排名與流量

對(duì)于有搜索量的詞,獲得好的排名,幾乎確定了能獲得流量。這里說(shuō)幾乎,因?yàn)檫€有一個(gè)點(diǎn)展比(點(diǎn)擊量除以曝光量)的概念。按照谷歌的規(guī)律,PC搜索結(jié)果中,前四位獲得點(diǎn)擊的幾率是42%,12%,9%,6%。

先說(shuō)排名。說(shuō)到搜索排序,有很多場(chǎng)景下可以用到,比如在搜索結(jié)果頁(yè)中的推廣鏈接區(qū)域有個(gè)排序;在淘寶里面搜索,商品返回的結(jié)果列表有個(gè)默認(rèn)的排序;App Store中搜索也會(huì)按照一定的規(guī)則返回結(jié)果列表;同樣的,在廣告投放中候選廣告創(chuàng)意去競(jìng)爭(zhēng)一個(gè)展示機(jī)會(huì)時(shí)也有一個(gè)排序。這些排序與自然搜索的排序有一個(gè)共同點(diǎn),即為了用戶(hù)體驗(yàn),將好的,最符合用戶(hù)需求的排在前面,從而提升用戶(hù)體驗(yàn)。

影響自然搜索排序的因子應(yīng)該很多,眾所周知的,如網(wǎng)站自身的權(quán)威性與價(jià)值,網(wǎng)頁(yè)的導(dǎo)入鏈接權(quán)重,網(wǎng)頁(yè)結(jié)構(gòu)/速度,網(wǎng)頁(yè)內(nèi)容的原創(chuàng)性,以及最重要的,用戶(hù)搜索詞的出現(xiàn)頻次,頁(yè)面Title與H標(biāo)簽中出現(xiàn)搜索詞的頻次,等等。這是事前的因素。

有一點(diǎn)特別要提及的,搜索引擎為了構(gòu)建良好的搜索競(jìng)爭(zhēng)生態(tài),對(duì)新站有個(gè)補(bǔ)償機(jī)制。這也是實(shí)際有效的排序因子。

還有一點(diǎn)事后的因素,獲得排名,用戶(hù)點(diǎn)擊,之后是否還點(diǎn)擊了別的搜索結(jié)果。如果你的頁(yè)面排在某個(gè)詞的搜索結(jié)果第一位,搜索用戶(hù)點(diǎn)擊了你以后,還總會(huì)點(diǎn)擊第二位的結(jié)果,那顯然第二位的結(jié)果更符合用戶(hù)需求,排序如何變化可想而知。這點(diǎn)可以從百度公開(kāi)的專(zhuān)利中找到依據(jù),點(diǎn)擊器也是利用這個(gè)原理來(lái)實(shí)現(xiàn)的。

獲得排名的搜索結(jié)果,展現(xiàn)給用戶(hù)的信息包括,頁(yè)面Title,Description或者頁(yè)面內(nèi)提取的信息摘要,縮略圖,首頁(yè)的子鏈接。后面兩者可能有,也可能沒(méi)有。還有一個(gè)相對(duì)次要的因素,搜索結(jié)果的域名/鏈接摘要。如何在獲得曝光的情況下,吸引用戶(hù)點(diǎn)擊? 除了讓自己的排名盡量靠前外,可以做的事情還包括,優(yōu)化Title/Description的文案,在頁(yè)面主體區(qū)域提供合適尺寸的圖片增加被作為縮略圖的幾率等。搜索結(jié)果條目示例如下:

百度自己的產(chǎn)品雖然有被提權(quán)的嫌疑,但是從SEO的角度看,仍然有很多值得學(xué)習(xí)的地方。對(duì)于一些如果不確定,可以研究百度自己的產(chǎn)品,看具體的實(shí)現(xiàn)方式。

經(jīng)過(guò)了關(guān)鍵詞,內(nèi)容,頁(yè)面,抓取,索引/收錄,排名,流量,這個(gè)漫長(zhǎng)的鏈條,我們?cè)倩仡^來(lái)看封面上的漏斗模型,可以從中反思,我們的短板在哪里,機(jī)會(huì)又在哪里。如果將這些數(shù)據(jù)匯集在一起,隨時(shí)利用這個(gè)數(shù)據(jù)鏈去監(jiān)控網(wǎng)站的SEO狀況,利用數(shù)據(jù)對(duì)一些優(yōu)化操作進(jìn)行效果監(jiān)控,甚至通過(guò)定義一些自動(dòng)化的策略,使得系統(tǒng)自己可以實(shí)施一些優(yōu)化操作,并利用數(shù)據(jù)反饋,再調(diào)整,再優(yōu)化,實(shí)現(xiàn)智能優(yōu)化,真正發(fā)揮數(shù)據(jù)的威力。

網(wǎng)頁(yè)題目:網(wǎng)站數(shù)據(jù)抓取與頁(yè)面流量排名深度分析
當(dāng)前網(wǎng)址:http://www.muchs.cn/news/224904.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信公眾號(hào)網(wǎng)站建設(shè)、外貿(mào)網(wǎng)站建設(shè)、網(wǎng)站維護(hù)、網(wǎng)頁(yè)設(shè)計(jì)公司、用戶(hù)體驗(yàn)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

網(wǎng)站托管運(yùn)營(yíng)