用文本挖掘和機(jī)器學(xué)習(xí)洞悉數(shù)據(jù)

互聯(lián)網(wǎng)IDC圈1月4日?qǐng)?bào)道:對(duì)于機(jī)器學(xué)習(xí)技術(shù)中信息檢索和自然語言處理的應(yīng)用而言,文本挖掘已經(jīng)成為一個(gè)重要的研究領(lǐng)域。在某種意義上,它被定義為在無處不在的文本中發(fā)現(xiàn)知識(shí)的方式,而這些文本可以在網(wǎng)絡(luò)上輕易獲取。

洪山ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場景,ssl證書未來市場廣闊!成為創(chuàng)新互聯(lián)公司的ssl證書銷售渠道,可以享受市場價(jià)格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:18980820575(備注:SSL證書合作)期待與您的合作!

文本挖掘是一個(gè)包含幾個(gè)步驟的過程,如上圖所示。

機(jī)器學(xué)習(xí)在電商文本挖掘中的應(yīng)用淺析

第一步:適合應(yīng)用的文檔一般是確定的大量文本數(shù)據(jù)。文檔聚類方法經(jīng)常用語解決“大量”這個(gè)問題。這些方法是非監(jiān)督的學(xué)習(xí)方法,最受歡迎的文檔聚類方法是K-means聚類和凝聚層次聚類。

第二步:文本是被清洗了的——它從網(wǎng)頁上的廣告中拆離出來;標(biāo)準(zhǔn)化文本從二進(jìn)制格式轉(zhuǎn)換而來;表、數(shù)字等式都是經(jīng)過處理的;還有其它的等等。然后,將文本中的詞語與對(duì)應(yīng)的詞類標(biāo)記的步驟開始進(jìn)行。有兩種方法標(biāo)出詞語:一個(gè)是基于規(guī)則方法,依賴于語法規(guī)則;一個(gè)是基于統(tǒng)計(jì)的方法,它依賴于不同的詞序概率,并且需要一個(gè)用來機(jī)器學(xué)習(xí)的手工且有針對(duì)性的語料庫。之后,一個(gè)詞語在依據(jù)給定的話句子中所含有的擁有的許多不同的含義確定了。最后,語義結(jié)構(gòu)明確下來。有兩種方式來確定語義結(jié)構(gòu):完全語法分析,它會(huì)對(duì)一個(gè)句子會(huì)產(chǎn)生一個(gè)分析樹,是部分語法分析的組合,部分語法分析會(huì)產(chǎn)生一個(gè)句子的語法結(jié)構(gòu),比如名詞短語和動(dòng)詞組。產(chǎn)生一個(gè)完整分析樹經(jīng)常失敗,因?yàn)檎Z法不準(zhǔn)確、異常詞匯、糟糕的符號(hào)化、不正確的句子拆分、詞性的標(biāo)準(zhǔn)錯(cuò)誤和其它等等原因。因此,分塊和部分分析更為常用。

第三步:這些詞語(特征)決定了文本表示。最基本的文檔表示方法有詞袋法和向量空間。這些方法的目標(biāo)在于確定哪些特征可以最好的描述一個(gè)文檔。

第四步:特征的維度被降低。為此,無關(guān)的屬性將被移除。

第五步:文本挖掘過程與傳統(tǒng)的數(shù)據(jù)挖掘過程結(jié)合。經(jīng)典的數(shù)據(jù)挖掘技術(shù)如聚類,分類,決策樹,回歸分析,神經(jīng)網(wǎng)絡(luò)和近鄰取樣將被用在之前的階段所得到的結(jié)構(gòu)化數(shù)據(jù)庫上。

在最后的步驟中,如果結(jié)果不令人滿意,它們將會(huì)用做文本挖掘一個(gè)或多個(gè)早期階段所投入的一部分。

機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)的一個(gè)分支,它來源于模式識(shí)別研究好人工智能中計(jì)算學(xué)習(xí)理論。它探索了算法的研究和建立,認(rèn)為可以從數(shù)據(jù)中進(jìn)行學(xué)習(xí)并對(duì)數(shù)據(jù)進(jìn)行預(yù)測。這樣的算法運(yùn)行是通過樣例的輸入來建立模型,從它成為以數(shù)據(jù)作為驅(qū)動(dòng)的預(yù)測或者決策,而不是遵循嚴(yán)格的靜態(tài)程序指令。

機(jī)器學(xué)習(xí)與計(jì)算統(tǒng)計(jì)學(xué)非常相關(guān),并且經(jīng)常有所重疊——也是一個(gè)專門研究預(yù)測制定的學(xué)科。它和數(shù)學(xué)最優(yōu)化法有很強(qiáng)的關(guān)系,提供了方法、理論和應(yīng)用領(lǐng)域。它是使用一系列的計(jì)算任務(wù),其中顯示算法設(shè)計(jì)和編程都不可用。示例應(yīng)用程序包含垃圾郵件過濾,光學(xué)字符識(shí)別(OCR),搜索引擎和計(jì)算機(jī)視覺。文本挖掘利用機(jī)器學(xué)習(xí)在決定功能,降低維數(shù)和刪除不相關(guān)的屬性上的特別優(yōu)勢。例如,文本挖掘?qū)C(jī)器學(xué)習(xí)用于情緒分析,它廣泛的應(yīng)用于評(píng)論到社交媒體,涵蓋了從營銷到客戶服務(wù)各種不同的而應(yīng)用程序。它的目的是確定一個(gè)說話者或?qū)懽髡邔?duì)一些話題的態(tài)度,或者是一個(gè)文檔整體語境的極性判定。這個(gè)態(tài)度可能是他或者她的判斷或評(píng)價(jià),情感狀態(tài)或情感交流。文本挖掘中機(jī)器學(xué)習(xí)算法包括決策樹學(xué)習(xí),關(guān)聯(lián)規(guī)則學(xué)習(xí),人工神經(jīng)學(xué)習(xí),歸納邏輯編程,支持向量機(jī),貝葉斯網(wǎng)絡(luò)、遺傳算法和稀疏字典的學(xué)習(xí)。

網(wǎng)頁標(biāo)題:用文本挖掘和機(jī)器學(xué)習(xí)洞悉數(shù)據(jù)
標(biāo)題網(wǎng)址:http://www.muchs.cn/article44/sdgihe.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App開發(fā)自適應(yīng)網(wǎng)站、定制開發(fā)、ChatGPT面包屑導(dǎo)航、網(wǎng)站收錄

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

綿陽服務(wù)器托管