2021-11-28 分類: 網(wǎng)站建設(shè)
中文分詞技術(shù)是搜索引擎對于用戶提交查詢的關(guān)鍵詞,搜索引擎用中文分詞把詞按照一定的規(guī)格,將一個長尾詞分割成幾個部分,從而概括一段話的主要內(nèi)容,讓用戶能更快速度的找到想要的內(nèi)容。
搜索引擎最常用的幾種分詞方法有三種:
一、字符串匹配的方法;(字符串匹配的分詞一般為3種:1.正向大匹配法;2.逆向大匹配法;3.最少切分)
二、理解分詞方法;
三、統(tǒng)計分詞方法。
字符串匹配方法:在百度中搜索“我喜歡玩寵物連連看”而在百度排名第一位的是以標(biāo)題和搜索的長尾詞相符合,說明在網(wǎng)站條件相當(dāng)?shù)那闆r下,先顯示 標(biāo)題匹配的網(wǎng)頁。這樣文章標(biāo)題中的長尾是在排名中非常重要的。而在百度第二頁“我喜歡玩寵物連連看”用百度快照查看,很顯然長尾詞已經(jīng)被分成“我喜歡, 玩,寵物連連看”而在外后已經(jīng)被分成:“我,喜歡玩,寵物,連連看”,這種匹配方法是最少切分方式。
理解分詞方法:當(dāng)輸入的字符串中包含≤3個中文字符的話百度分詞就會直接接到數(shù)據(jù)庫索引詞匯;而當(dāng)字符串長度》4個中文字符的時候,百度中分詞會會把這個詞分成若干個字符。如:百度搜索“電動車”。
統(tǒng)計分詞方法:相鄰的字同時出現(xiàn)的次數(shù)越多,中文分詞就會可能把出現(xiàn)相鄰的字當(dāng)成你一個詞。例如在百度中輸入一個字符“網(wǎng)”而在下面百度也把“網(wǎng)站”標(biāo)紅了,這樣可以看得出“網(wǎng)”與“站”這兩個字符相鄰出現(xiàn)的次數(shù)非常多,統(tǒng)計分詞已經(jīng)把“網(wǎng)站”納入了詞庫。
對于百度中文分詞的理解:
中文分詞中強調(diào)一點:“按照不同長度優(yōu)先匹配的情況,可以分為大(最長)匹配和最小(最短)匹配”;長尾詞在文章中的間距也是決定文章排名的因素。如:“我喜歡玩寵物連連看”在百度第十三頁的時候已經(jīng)被分詞成“我,喜歡,玩,寵物,連連,看”
全字匹配得到的詞的權(quán)重會高于分開的詞的權(quán)重。
根據(jù)自己的觀察現(xiàn)在百度大部分都是使用的是正向匹配。
百度分詞對于一句話分詞之后,還會去掉句子中的沒有意義的詞語。
分享名稱:優(yōu)化:淺談百度三種中文分詞技術(shù)
當(dāng)前鏈接:http://muchs.cn/news45/137945.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供響應(yīng)式網(wǎng)站、網(wǎng)站營銷、網(wǎng)站制作、做網(wǎng)站、網(wǎng)站內(nèi)鏈、企業(yè)建站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容