建站初期做優(yōu)化先了解搜索引擎算法

2016-11-05    分類: 網(wǎng)站建設

最近在思考有關(guān)搜索引擎排序的一些內(nèi)容,有一些不成熟的想法,拿出來分享討論。

搜索引擎(這里以谷粉搜搜的設計為參考)在頁面爬行,正文內(nèi)容提取,分詞建立倒排索引以后,將對檢索關(guān)鍵字進行分詞,并提取出詞性為名詞,字符串等比較重要的詞到分詞索引庫取交集,即會得到一個包含具備基本相關(guān)度的頁面文件集合,之后將會進入頁面排序部分。

在頁面排序部分,有兩個部分是特別重要的,一個是頁面在搜索引擎里面的權(quán)重分數(shù),還有一個是重要詞性的分詞出現(xiàn)在頁面的位置(標題,有效正文的最開始區(qū)域等),我認為這兩個部分的分數(shù)基本上決定了大體的排名位置,其中頁面的權(quán)重分數(shù)所占的比例會更多(偏向于認為是大,并且比其他因素都大很多),檢索詞的其他詞性如形容詞,介詞等分詞的完整匹配出現(xiàn)會獲得一小部分的加分。

頁面的權(quán)重分數(shù)在不同的搜索引擎傾向會有明顯的不同,總體來說,都和鏈接關(guān)系密切相關(guān),鏈接關(guān)系分為相關(guān)性有效鏈接(導出鏈接的網(wǎng)站內(nèi)容,錨文本,目標網(wǎng)站高度相關(guān))和高信任度鏈接(來自大網(wǎng)站,gov,edu等高PR值網(wǎng)站),這兩種鏈接具體可以參考Hilltop算法和Trustrank算法,其中Hilltop算法想法非常有趣,在該算法的一個專利版本里面提到了對最初的搜索結(jié)果頁面集合再次進行鏈接關(guān)系相關(guān)性計算,以進一步精確在該檢索詞范圍權(quán)重高的頁面。

頁面權(quán)重分數(shù)還會涉及到域名的建站時間因素(這里我認為不僅僅是因為鏈接存在的時間因素),在百度的算法里,主域名的權(quán)重對子域名和頁面的權(quán)重影響也會比谷歌大很多。

在這些步驟完成后,會進入最后一個反作弊模塊,處理掉那些作弊積分超過一定程度的頁面以及在沙盒里的頁面,然后得到最終的排序結(jié)果。

在考慮這個搜索引擎排序算法的時候,基本上就可以確定大部分的頁面是沒有機會在搜索引擎里面獲得展出的,這是因為權(quán)重在搜索引擎的算法里占有高度優(yōu)先級的原因。

在可以獲得的數(shù)據(jù)里,我認為曾經(jīng)的谷歌PR值是最接近能反映頁面權(quán)重的數(shù)據(jù),雖然已經(jīng)停止更新一年了。愛站,CHINAZ等第三方網(wǎng)站提供的百度權(quán)重是基于從百度引導過去的流量為標準進行計算的結(jié)果,雖然能一定程度反應域名的權(quán)重,不過這種以結(jié)果論的方式來說明問題不太準確,以提高頁面權(quán)重的目標來說,這些第三方數(shù)據(jù)不能作為標準。

因此,做網(wǎng)站不應該是追求大量采集內(nèi)容(就像許多人拼命來采集谷粉搜搜的內(nèi)容一樣),或者勤于天天更新簡單的原創(chuàng),采集的內(nèi)容和簡單的原創(chuàng)如果沒有人分享,不能吸引高質(zhì)量的鏈接,頁面的權(quán)重就不會上升,就得不到排名的機會,同樣也吸引不了用戶。

因此,做網(wǎng)站應該更新有價值的原創(chuàng),能夠吸引來自許多網(wǎng)站的正文相關(guān)鏈接,或者做出有價值的工具網(wǎng)站讓更多人使用分享,獲得許多高信任度的鏈接,只有這樣,在搜索引擎排序最重要的權(quán)重分數(shù)排序階段,獲得更多機會。

標題名稱:建站初期做優(yōu)化先了解搜索引擎算法
文章位置:http://www.muchs.cn/news/60851.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供全網(wǎng)營銷推廣、定制開發(fā)ChatGPT、網(wǎng)站營銷、企業(yè)網(wǎng)站制作品牌網(wǎng)站設計

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都做網(wǎng)站