搜索引擎與網(wǎng)頁(yè)文本分詞的原理

2022-09-15    分類: 網(wǎng)站建設(shè)

對(duì)于SEO人員來說,自己工作的主要目標(biāo)就是搜索引擎,所以深刻理解搜索引擎運(yùn)行機(jī)制有助于我們針對(duì)搜索引擎進(jìn)行優(yōu)化,這就相當(dāng)于兩國(guó)交兵,必須要知道對(duì)方的虛實(shí),再分析自己的優(yōu)勢(shì),然后才能夠一舉進(jìn)兵消滅對(duì)方,如果你還不知道對(duì)方的虛實(shí),別人以逸待勞,那你失敗是肯定的了!而在分析搜索引擎方面,知道其運(yùn)行機(jī)制和分詞技術(shù)是非常重要的一環(huán)!
搜索引擎工作的第一步:提取頁(yè)面文字
首先就是抓取頁(yè)面的文字,一般而言搜索引擎會(huì)把相關(guān)關(guān)鍵詞的對(duì)應(yīng)文字提取出來,還有就是meta標(biāo)簽等等,還有就是關(guān)鍵詞和描述以及圖片的ATL屬性等等,這個(gè)ALT屬性是需要用戶把鼠標(biāo)對(duì)應(yīng)到圖片上才能夠看到,另外還有就是網(wǎng)頁(yè)的相關(guān)文本,所以很多FLASH網(wǎng)站在搜索引擎優(yōu)化方面就會(huì)吃很多虧,因?yàn)闆]有很多的文本,而且搜索引擎也不會(huì)抓取flash源代碼!所以很多做flash網(wǎng)站優(yōu)化的基本上會(huì)再編一套源碼程序,讓相關(guān)的文字和內(nèi)容對(duì)應(yīng)上,這樣才能夠被搜索引擎識(shí)別!
搜索引擎工作的第二步:中文分詞技術(shù)
當(dāng)搜索引擎把文字抓取之后,接下來的工作就是將這些文字進(jìn)行分詞,講一句話分解成一個(gè)一個(gè)的短語(yǔ),比如齊天大圣孫悟空這個(gè)短語(yǔ),就會(huì)被分成齊天大圣和孫悟空兩個(gè)單詞,還比如:楊柳如是冷月這個(gè)詞,我們可以通過圖示一下看看這百度和谷歌的分詞區(qū)別!
這兩個(gè)搜索結(jié)果是不同的,谷歌更傾向于將柳如是當(dāng)成一個(gè)名詞,所以在柳如是貼吧變成了第一個(gè)匹配的!而對(duì)于百度來說,就直接把這個(gè)楊柳如是冷月這個(gè)詞分別變成了楊柳,如是和冷月了,所以有關(guān)柳如是貼吧卻沒有出現(xiàn)在首頁(yè)上,為什么會(huì)出現(xiàn)這么明顯的區(qū)別呢?關(guān)鍵是谷歌沒有一個(gè)專有的詞典,所以匹配方式會(huì)有一些區(qū)別,我們要針對(duì)不同搜索引擎進(jìn)行關(guān)鍵詞優(yōu)化,在內(nèi)容上要盡量的靠近關(guān)鍵詞,而不能夠讓關(guān)鍵詞和內(nèi)容割裂開來,這樣關(guān)鍵詞的排名就很難上去了!
搜索引擎工作的第二步:匹配技術(shù)
一:正向匹配,上面的楊柳如是冷月就是正向匹配,這種匹配方式有助于消除歧義,讓搜索出來的結(jié)果更加準(zhǔn)確,而不會(huì)將楊柳如是,變成柳如是了!
二:逆向匹配,這是一種從后往前匹配的方法。
三:大化匹配,比如把美利堅(jiān)合眾國(guó)是自由的,大匹配就成了美利堅(jiān)合眾國(guó),自由!
四:最小化匹配,依然拿美利堅(jiān)合眾國(guó)是自由的,最小匹配就成了美,利堅(jiān),合眾,國(guó),自由了,而在搜索引擎實(shí)際分詞過程中,會(huì)將這幾種匹配方式進(jìn)行綜合的運(yùn)用,不會(huì)只會(huì)使用其中的一種,搜索引擎的分詞技術(shù)最終的目的就只有兩點(diǎn),我們要奔著這兩點(diǎn)來進(jìn)行搜索引擎優(yōu)化就能夠有助于提升網(wǎng)站的排名!其一是通過各種匹配的技巧來消除文本中的歧義,讓搜索的詞出來的內(nèi)容更加的準(zhǔn)確和完整!其二就是通過各種匹配方式將一些人名,地名和機(jī)構(gòu)名以及一些從沒有登陸的詞比如口頭禪,流行語(yǔ)等等進(jìn)行統(tǒng)計(jì),然后將統(tǒng)計(jì)的結(jié)果和用戶的想要了解的內(nèi)容進(jìn)行不同方式的匹配,從而讓用戶獲得自己想要的內(nèi)容!

分享名稱:搜索引擎與網(wǎng)頁(yè)文本分詞的原理
當(dāng)前URL:http://www.muchs.cn/news27/195477.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供ChatGPT面包屑導(dǎo)航、企業(yè)網(wǎng)站制作網(wǎng)站營(yíng)銷、定制開發(fā)Google

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

微信小程序開發(fā)