(seo)去停止詞 消除噪音 去重

2022-07-28    分類: 網(wǎng)站建設

今天成都網(wǎng)站設計
--創(chuàng)新互聯(lián)小編來和大家說說:(seo)去停止詞 消除噪音  去重

成都網(wǎng)站設計--創(chuàng)新互聯(lián)小編來首先說/

去停止詞:無論是英文還是中文,頁面內(nèi)容都會出現(xiàn)一些頻率很高,卻對內(nèi)容沒有影響的詞,如“的“, “地“,”得“之類的助詞,”啊“,”哈“,”呀“之類的感嘆詞,”從而“,”以“,”卻“之類的副詞和介詞。這些詞被稱為停止詞,因為它們對頁面的主要意思沒什么影響。英文中的常見停止詞有the,a,an,to,of等。搜索引擎在索引頁面之前會去掉這些停止詞,使索引數(shù)據(jù)主題更為突出,減少無畏的計算量。成都網(wǎng)站設計--創(chuàng)新互聯(lián)小編說第2點/來

消除噪音:絕大部分頁面上還有一部分內(nèi)容對頁面主題也沒有什么貢獻,比如版權聲明文字,導航條,廣告等。以常見的博客導航為例,幾乎每個博客頁面上都會出現(xiàn)文章分類,歷史存檔等導航內(nèi)容,但是這些頁面本身與“分類”,“歷史”這些詞都沒有任何關系。用戶搜索“歷史:,”分類“這些關鍵詞時僅僅是因為頁面上有這些關鍵詞出現(xiàn)而返回博客帖子是豪無意義的,完全不相關。所以這些區(qū)塊都是屬于噪聲,對頁面主題只能起到分散作用。

搜索引擎需要識別并消除這些噪聲,排名時不使用噪聲內(nèi)容。消除的基本方法是根據(jù)html標簽對頁面分塊,區(qū)分出頁頭,導航,正文,頁腳,廣告等區(qū)域,在網(wǎng)站上大量重復出現(xiàn)的區(qū)塊往往屬于噪聲。對頁面進行消噪后,剩下的才是頁面主題內(nèi)容。成都網(wǎng)站設計--創(chuàng)新互聯(lián)小編說第3點

去重:搜索引擎還需要對頁面進行去重處理。同一篇文章經(jīng)常會出現(xiàn)在不同網(wǎng)站及同一個網(wǎng)站上的不同網(wǎng)址上,搜索引擎并不喜歡這種重復性的內(nèi)容。用戶搜索時,如果在前兩頁看到的都是來自不同網(wǎng)站的同一篇文章,用戶體驗就太差了,雖然都是內(nèi)容相關的。搜索引擎只希望返回相同頁面文章中的一篇,所以在進行搜索前還需要識別和刪除重復內(nèi)容,這個過程就成為”去重“?!比ブ亍暗幕痉椒ㄊ菍撁嫣囟ǖ年P鍵詞計算指紋,也就是從頁面主體中選取最具有代表性的一部分關鍵詞(經(jīng)常是出現(xiàn)頻率高的關鍵詞),然后計算出這些關鍵詞的指紋。這里的關鍵詞選取是在分詞,去停止詞,消噪之后。實驗表明,通常選取10個特征關鍵詞就可以達到比較高的計算準確性,再選取更多詞對去重準確性提高也就大了。

典型的指紋計算方法如md5算法(信息摘要算法第5版)。這類指紋算法的特點是,輸入(特征關鍵詞及其順序)有任何微小的變化,都會導致計算出的指紋有很大的差距。了解搜索引擎的計算方法,seo人員就應該知道簡單的增加“的”,“地”,“得”,調(diào)換段落順序這種的偽原創(chuàng),并不能逃過搜索引擎的去重算法,因為這樣的操作無法改變文章的特征關鍵詞,也就無法改變指紋。而且,搜索引擎的算法很可能不止頁面的級別,而是進行到段落級別,混合不同文章。交叉調(diào)換段落順序也不能使轉(zhuǎn)載和抄襲不能變成原創(chuàng)。和大家分享完這篇文章,成都網(wǎng)站設計



--創(chuàng)新互聯(lián)小編自己對優(yōu)化都思路清晰不少。

文章標題:(seo)去停止詞 消除噪音 去重
文章出自:http://www.muchs.cn/news/183069.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供搜索引擎優(yōu)化、網(wǎng)站制作、外貿(mào)建站、App設計、關鍵詞優(yōu)化、自適應網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

微信小程序開發(fā)