濰坊百度快照推廣分享文章中要害詞的提取與拓展要領(lǐng)

2023-01-22    分類: 網(wǎng)站建設(shè)

一般環(huán)境下,文本顛末預(yù)處理懲罰獲得候選詞集,然后通過(guò)特征值量化從候選詞會(huì)合得到要害詞?;诮y(tǒng)計(jì)特征的要害詞提取要領(lǐng)的要害是回收何種特征值量化指標(biāo)。

一般來(lái)說(shuō),詞的位置對(duì)詞有很大的代價(jià)。譬喻,標(biāo)題和摘要自己是作者總結(jié)的文章的主要思想,萊蕪網(wǎng)站制作,因此呈此刻這些處所的詞具有代表性,更容易成為要害詞。然而,由于每個(gè)作者都有差異的習(xí)慣、寫作要領(lǐng)和要害句子的位置,這也是一種很是遍及的得到要害詞的要領(lǐng),凡是不光獨(dú)利用?;バ畔⒑突バ畔⑹切畔⒄撝械囊粋€(gè)觀念,是權(quán)衡變量彼此依賴性的一個(gè)指標(biāo)。彼此信息不限于實(shí)值隨機(jī)變量。

結(jié)構(gòu)要害詞提取模子只需要少量的練習(xí)數(shù)據(jù),然后操作模子對(duì)新文本舉辦查抄。要害字提取,手動(dòng)篩選這些要害字,并將篩選后的要害字添加到培訓(xùn)集以從頭培訓(xùn)模子。無(wú)監(jiān)視的要領(lǐng)不需要手動(dòng)標(biāo)志語(yǔ)料庫(kù)。一些要領(lǐng)被用來(lái)尋找文本中更重要的詞作為要害字并提取要害字。監(jiān)視文本要害字提取算法要求人工本錢高,現(xiàn)有的文本要害字提取主要回收無(wú)監(jiān)視要害字提取,合用性強(qiáng)。

今朝常用的要領(lǐng)有三種:1、基于詞權(quán)的特征量化主要包羅部門語(yǔ)音、詞頻、反向文檔頻率、相對(duì)詞頻、詞長(zhǎng)等。2、基于詞位的特征量化要領(lǐng)是基于差異位置的句子對(duì)文獻(xiàn)的重要性差異的假設(shè)。凡是,文章的前N個(gè)詞、后N個(gè)詞、開(kāi)頭、末了、標(biāo)題和引言都是有代表性的詞。這些詞可以把整個(gè)主題表達(dá)為要害詞。3、基于詞關(guān)聯(lián)信息的特征量詞的關(guān)聯(lián)信息是指詞與詞、詞與文獻(xiàn)的關(guān)聯(lián)水平,包羅互信息、擲中值、孝敬度、依賴度、tf-idf值等,這里有一些常用的特征值量化指標(biāo)。部門語(yǔ)音分詞和語(yǔ)法闡明的功效?,F(xiàn)有的要害詞大多是名詞或動(dòng)名詞。

文本要害字提取的進(jìn)程如下:無(wú)監(jiān)視文本要害字提取流程圖無(wú)監(jiān)視要害字提取算法可分為三類:基于統(tǒng)計(jì)特征的要害字提取、基于詞圖模子的要害字提取和基于主題模子的要害字提取?;诮y(tǒng)計(jì)特征的文本要害字提取算法基于統(tǒng)計(jì)特征的要害字提取算法基于統(tǒng)計(jì)特征的要害字提取算法是操作文檔中的統(tǒng)計(jì)信息提取要害字。

在自然語(yǔ)言處理懲罰規(guī)模,處理懲罰海量文本文件的要害是提取用戶最體貼的問(wèn)題。無(wú)論是長(zhǎng)文本照舊隨筆本,我們都可以通過(guò)幾個(gè)要害詞來(lái)窺視整個(gè)文本的主題。同時(shí),無(wú)論是基于文本的推薦照舊基于文本的搜索,對(duì)文本要害字的依賴性也很大。要害詞提取的精確性直接干系到推薦系統(tǒng)或搜索系統(tǒng)的最終結(jié)果。

一般來(lái)說(shuō),名詞比言語(yǔ)的其他部門更能表達(dá)文章的主旨。然而,作為特征量化的指標(biāo),部門語(yǔ)音凡是與其他指標(biāo)團(tuán)結(jié)利用。單詞頻率暗示單詞在文本中呈現(xiàn)的頻率。一般來(lái)說(shuō),我們認(rèn)為一個(gè)詞在文本中呈現(xiàn)的頻率越高,它就越有大概成為文章的焦點(diǎn)詞。單詞頻率只是計(jì)較文本中呈現(xiàn)的單詞數(shù)。然而,僅依靠詞頻得到的要害詞具有很大的不確定性。對(duì)付長(zhǎng)文本,此要領(lǐng)將發(fā)生大量噪聲。

因此,要害字提取是文本挖掘規(guī)模的一個(gè)重要構(gòu)成部門。從文本中提取要害詞有三種要領(lǐng):監(jiān)視、半監(jiān)視和無(wú)監(jiān)視。監(jiān)視要害字提取算法是將要害字提取算法結(jié)構(gòu)為兩類問(wèn)題來(lái)判定文檔中的詞或短語(yǔ)是否為要害字。由于這是一個(gè)分類問(wèn)題,因此有須要提供標(biāo)志的練習(xí)預(yù)測(cè)。練習(xí)語(yǔ)料庫(kù)用于練習(xí)要害詞提取模子。按照該模子,對(duì)需要提取要害字的文檔的要害字提取算法舉辦了半監(jiān)視。

分享標(biāo)題:濰坊百度快照推廣分享文章中要害詞的提取與拓展要領(lǐng)
瀏覽地址:http://www.muchs.cn/news24/231674.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供面包屑導(dǎo)航、做網(wǎng)站網(wǎng)站營(yíng)銷、網(wǎng)站內(nèi)鏈定制開(kāi)發(fā)、網(wǎng)站設(shè)計(jì)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

網(wǎng)站托管運(yùn)營(yíng)