網(wǎng)站數(shù)據(jù)抓取與頁面流量排名深度分析

2022-12-23    分類: 網(wǎng)站建設(shè)

從關(guān)鍵詞,到內(nèi)容和頁面,完成了需求分析和生產(chǎn)。內(nèi)容在頁面上如何布局,如果處理好內(nèi)容的結(jié)構(gòu)化,從而更符合搜索引擎的口味,還有很多細(xì)致的工作要做,這里不展開。

抓取與收錄

搜索結(jié)果頁是站點(diǎn)之間競爭用戶的戰(zhàn)場,要想在競爭中獲勝,首先你得站到戰(zhàn)場上去。根據(jù)之前說到的搜索引擎的原理,我們知道,要在搜索結(jié)果頁中出現(xiàn),首先生產(chǎn)的頁面要被搜索引擎的蜘蛛抓取。蜘蛛發(fā)現(xiàn)網(wǎng)頁,正常情況下是通過站內(nèi)的鏈接,和站外的鏈接,按照廣度優(yōu)先的原則,提取頁面中導(dǎo)出的URL。一般來說,站長還可以通過提交Sitemap,Ping通知蜘蛛,手動(dòng)提交等方式,幫助蜘蛛發(fā)現(xiàn)有效的URL。

頁面數(shù)據(jù)抓取

前面說到,通過鏈接抓取網(wǎng)頁,按照廣度優(yōu)先的原則。一般的小站,搜索引擎從起點(diǎn)頁抓取三四層的深度也就不錯(cuò)了,一般這個(gè)起點(diǎn)頁都是網(wǎng)站首頁。所以SEO要將網(wǎng)站整體設(shè)計(jì)成扁平的結(jié)構(gòu),有些時(shí)候需要為蜘蛛搭一些梯子,幫助它在較短路徑上接觸到更多的URL。舉個(gè)例子,

網(wǎng)頁數(shù)據(jù)抓取

一般情況下,一個(gè)頁面內(nèi)導(dǎo)出鏈接不能過多,超過某個(gè)值蜘蛛就不抓了。之前的經(jīng)驗(yàn)是100,但是這個(gè)數(shù)值還是跟網(wǎng)站和具體頁面有關(guān)。在網(wǎng)站層級(jí)和單頁導(dǎo)出鏈接總量兩個(gè)約束條件下,還有一點(diǎn)文章可做,那就是時(shí)間。單個(gè)頁面導(dǎo)出鏈接最多是100,如果我每天換掉其中的50個(gè)呢? 一個(gè)最簡單的實(shí)現(xiàn)方式是借助于緩存機(jī)制,固定的取50個(gè),另外再在全集中隨機(jī)取50個(gè),這50個(gè)設(shè)置緩存時(shí)間1天,1天后失效,再隨機(jī)取50個(gè),這樣可以大化導(dǎo)出鏈接的時(shí)效性,就像廣告的分時(shí)段輪播一樣。這里的數(shù)字可以根據(jù)實(shí)效進(jìn)行調(diào)整。站內(nèi)如此,對(duì)于批量交換的外鏈,也可以按照類似的方式實(shí)現(xiàn)。

對(duì)于移動(dòng)頁面,有兩種主要的機(jī)制通知到蜘蛛PC頁與移動(dòng)頁的對(duì)應(yīng)關(guān)系,一是在PC頁頭部加上mobile-agent的meta屬性,二是在站長工具提交PC/移動(dòng)頁對(duì)應(yīng)關(guān)系的正則(也可以提交全量的URL地址對(duì))。

抓取這個(gè)環(huán)節(jié)至關(guān)重要,站長平臺(tái)的抓取頻次,和通過accesslog分析得到的抓取明細(xì),都需要時(shí)刻監(jiān)控。小站的log文件,市面上有些一些日志分析工具,自己寫也OK。對(duì)于大站的log,很多都存儲(chǔ)于hadoop這樣的分布式存儲(chǔ)上,一般需要定制程序去分析處理。為了即時(shí)分析處理,快速反饋,可能需要接入流式計(jì)算框架。

對(duì)于蜘蛛抓取行為數(shù)據(jù)的使用,可以用來評(píng)估蜘蛛對(duì)于站內(nèi)頁面價(jià)值的評(píng)定,可以用來反饋輔助抓取所做的一些優(yōu)化的效果,可以預(yù)估新生成頁面被搜索引擎接受的程度,等等。沒有使用價(jià)值的數(shù)據(jù)是沒用的,數(shù)據(jù)跟具體的應(yīng)用場景結(jié)合起來,才能體現(xiàn)其價(jià)值。

對(duì)于抓取的頁面,蜘蛛建立倒排索引后,會(huì)進(jìn)行價(jià)值判定,按照價(jià)值高低,存儲(chǔ)在分級(jí)索引庫中。高級(jí)別的索引庫才會(huì)參與最終的搜索排序。

前段時(shí)間,圈子里流出了百度的一個(gè)搜索參數(shù),tn=json,以seo這個(gè)詞為例,查詢百度搜索前50條結(jié)果,查詢URL為,

http://www.baidu.com/s?wd=seo&pn=0&rn=50&tn=json

對(duì)于有程序基礎(chǔ)的同學(xué)們,json格式比網(wǎng)頁更易于處理。

這個(gè)方法只適用于PC端,對(duì)于移動(dòng)端的收錄情況的判斷,還是要老老實(shí)實(shí)的拼接搜索地址URL,解析相應(yīng)結(jié)果文檔。

一般SEO開始學(xué)的時(shí)候,都會(huì)接觸到site語法,基本上所有常見的搜索引擎也都支持site語法去查詢域名或者目錄級(jí)的收錄量查詢。在site查詢語句的后面加上一個(gè)詞,可以查詢得到該域名與這個(gè)詞相關(guān)的頁面。比較有價(jià)值的是,site語法查出來的結(jié)果,按照網(wǎng)頁的價(jià)值倒序排列。這個(gè)特征便使得依據(jù)相關(guān)性內(nèi)鏈,提升第二頁/第三頁落地頁的排名成為可能。

排名與流量

對(duì)于有搜索量的詞,獲得好的排名,幾乎確定了能獲得流量。這里說幾乎,因?yàn)檫€有一個(gè)點(diǎn)展比(點(diǎn)擊量除以曝光量)的概念。按照谷歌的規(guī)律,PC搜索結(jié)果中,前四位獲得點(diǎn)擊的幾率是42%,12%,9%,6%。

先說排名。說到搜索排序,有很多場景下可以用到,比如在搜索結(jié)果頁中的推廣鏈接區(qū)域有個(gè)排序;在淘寶里面搜索,商品返回的結(jié)果列表有個(gè)默認(rèn)的排序;App Store中搜索也會(huì)按照一定的規(guī)則返回結(jié)果列表;同樣的,在廣告投放中候選廣告創(chuàng)意去競爭一個(gè)展示機(jī)會(huì)時(shí)也有一個(gè)排序。這些排序與自然搜索的排序有一個(gè)共同點(diǎn),即為了用戶體驗(yàn),將好的,最符合用戶需求的排在前面,從而提升用戶體驗(yàn)。

影響自然搜索排序的因子應(yīng)該很多,眾所周知的,如網(wǎng)站自身的權(quán)威性與價(jià)值,網(wǎng)頁的導(dǎo)入鏈接權(quán)重,網(wǎng)頁結(jié)構(gòu)/速度,網(wǎng)頁內(nèi)容的原創(chuàng)性,以及最重要的,用戶搜索詞的出現(xiàn)頻次,頁面Title與H標(biāo)簽中出現(xiàn)搜索詞的頻次,等等。這是事前的因素。

有一點(diǎn)特別要提及的,搜索引擎為了構(gòu)建良好的搜索競爭生態(tài),對(duì)新站有個(gè)補(bǔ)償機(jī)制。這也是實(shí)際有效的排序因子。

還有一點(diǎn)事后的因素,獲得排名,用戶點(diǎn)擊,之后是否還點(diǎn)擊了別的搜索結(jié)果。如果你的頁面排在某個(gè)詞的搜索結(jié)果第一位,搜索用戶點(diǎn)擊了你以后,還總會(huì)點(diǎn)擊第二位的結(jié)果,那顯然第二位的結(jié)果更符合用戶需求,排序如何變化可想而知。這點(diǎn)可以從百度公開的專利中找到依據(jù),點(diǎn)擊器也是利用這個(gè)原理來實(shí)現(xiàn)的。

獲得排名的搜索結(jié)果,展現(xiàn)給用戶的信息包括,頁面Title,Description或者頁面內(nèi)提取的信息摘要,縮略圖,首頁的子鏈接。后面兩者可能有,也可能沒有。還有一個(gè)相對(duì)次要的因素,搜索結(jié)果的域名/鏈接摘要。如何在獲得曝光的情況下,吸引用戶點(diǎn)擊? 除了讓自己的排名盡量靠前外,可以做的事情還包括,優(yōu)化Title/Description的文案,在頁面主體區(qū)域提供合適尺寸的圖片增加被作為縮略圖的幾率等。搜索結(jié)果條目示例如下:

百度自己的產(chǎn)品雖然有被提權(quán)的嫌疑,但是從SEO的角度看,仍然有很多值得學(xué)習(xí)的地方。對(duì)于一些如果不確定,可以研究百度自己的產(chǎn)品,看具體的實(shí)現(xiàn)方式。

經(jīng)過了關(guān)鍵詞,內(nèi)容,頁面,抓取,索引/收錄,排名,流量,這個(gè)漫長的鏈條,我們?cè)倩仡^來看封面上的漏斗模型,可以從中反思,我們的短板在哪里,機(jī)會(huì)又在哪里。如果將這些數(shù)據(jù)匯集在一起,隨時(shí)利用這個(gè)數(shù)據(jù)鏈去監(jiān)控網(wǎng)站的SEO狀況,利用數(shù)據(jù)對(duì)一些優(yōu)化操作進(jìn)行效果監(jiān)控,甚至通過定義一些自動(dòng)化的策略,使得系統(tǒng)自己可以實(shí)施一些優(yōu)化操作,并利用數(shù)據(jù)反饋,再調(diào)整,再優(yōu)化,實(shí)現(xiàn)智能優(yōu)化,真正發(fā)揮數(shù)據(jù)的威力。

網(wǎng)頁名稱:網(wǎng)站數(shù)據(jù)抓取與頁面流量排名深度分析
URL地址:http://www.muchs.cn/news4/224904.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信小程序用戶體驗(yàn)、ChatGPT、手機(jī)網(wǎng)站建設(shè)網(wǎng)站設(shè)計(jì)、營銷型網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站建設(shè)