多智能自然語言處理

背景——前所未有的創(chuàng)新時代

成都創(chuàng)新互聯(lián)于2013年開始,先為寶清等服務(wù)建站,寶清等地企業(yè),進行企業(yè)商務(wù)咨詢服務(wù)。為寶清企業(yè)網(wǎng)站制作PC+手機+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。

我們生活在一個創(chuàng)新的時代。在這個時代,互聯(lián)網(wǎng)顛覆了人們的生活和工作方式。社交網(wǎng)絡(luò)與移動終端的普及、大數(shù)據(jù)的產(chǎn)生與匯聚,催生出越來越多的新需求。這些需求必將推動更多創(chuàng)新應(yīng)用(如微博、微信、語音助手、網(wǎng)絡(luò)購物、手機打車、PM2.5指數(shù)、手機錢包、互聯(lián)網(wǎng)理財、交友、移動學(xué)習(xí)、在線課程等)的問世。由于創(chuàng)新所依賴的基礎(chǔ)設(shè)施日趨完善,多種云計算服務(wù)及開源平臺前所未有地降低了創(chuàng)新的成本,使得人們可以將精力集中到創(chuàng)新本身。

得益于網(wǎng)絡(luò)和云計算所支持的令人驚嘆的計算能力,以及從大數(shù)據(jù)洞察到的良機,還有機器學(xué)習(xí)所帶來的算法進步,人工智能獲得了新生。人工智能,是指計算機系統(tǒng)具備從聽說讀寫到搜索、推理、決策、回答問題等類人智能的能力。

最近,很多互聯(lián)網(wǎng)公司提出了“大腦”計劃,就是試圖在大數(shù)據(jù)和互聯(lián)網(wǎng)的背景下,提升各種應(yīng)用的智能水平。在大數(shù)據(jù)的支持下,新一代人工智能與自然語言處理技術(shù)的大規(guī)模應(yīng)用將成為科技創(chuàng)新的重大機遇。

數(shù)據(jù)智能、知識智能與社會智能

數(shù)據(jù)智能、知識智能和社會智能是智能應(yīng)用的三種典型模式。

數(shù)據(jù)智能是在大規(guī)模、多樣化、新鮮的數(shù)據(jù)支持下,在云計算的支撐下,采用機器學(xué)習(xí)的方法進行分類、聚類和排序,進而基于各類數(shù)據(jù)驅(qū)動實現(xiàn)的智能應(yīng)用系統(tǒng)。這里的數(shù)據(jù)是指存在于萬維網(wǎng)(Web)或者企業(yè)內(nèi)部的海量、無結(jié)構(gòu)或者半結(jié)構(gòu)的數(shù)據(jù)集合。這類數(shù)據(jù)具有重復(fù)性、冗余性和多樣性等特點,對搜索系統(tǒng)、問答系統(tǒng)、推理系統(tǒng)和預(yù)測系統(tǒng)具有重要意義。為了利用數(shù)據(jù)智能,我們須經(jīng)過數(shù)據(jù)獲取、去噪、抽取信息、建立索引等若干步驟形成可檢索的數(shù)據(jù)集合。我們也可以利用搜索引擎的返回結(jié)果進行實時信息抽取,以避免存儲和索引全網(wǎng)而付出的代價。

知識智能是指利用知識庫、詞典和規(guī)則進行推理的智能系統(tǒng)。目前很多搜索公司都建立了大型知識庫。Freebase, Yago2和DEPEDIA等知識庫可供免費研究和使用。結(jié)構(gòu)化、半結(jié)構(gòu)化和無結(jié)構(gòu)化的數(shù)據(jù)經(jīng)過信息抽取技術(shù)可獲取實體、實體的屬性和實體之間的關(guān)系來構(gòu)成一個知識圖譜。知識圖譜隨著數(shù)據(jù)的更新而演進,帶動知識智能不斷提升。

社會智能是指利用網(wǎng)友在互聯(lián)網(wǎng)上直接貢獻的內(nèi)容(包括網(wǎng)頁錨文本、用戶標(biāo)簽、用戶日志、用戶反饋、社區(qū)問答、社會關(guān)系網(wǎng)絡(luò)等)實現(xiàn)用戶參與的智能應(yīng)用。在社區(qū)問答中,用戶提出問題,其他網(wǎng)友回答問題。久而久之形成的問答對庫可以用來回答新的問題。這些問題和答案蘊含著豐富的社會智能。

值得注意的是,在企業(yè)里也存在著這樣三種形態(tài)的智能信息。企業(yè)的網(wǎng)頁、文檔、電子郵箱、新聞、交易數(shù)據(jù)等可以看作是數(shù)據(jù)智能;企業(yè)的知識庫、本體、產(chǎn)品目錄、地址簿、客戶關(guān)系等可以看作是知識智能;企業(yè)內(nèi)部的QQ, LINC, YAMMER, Wiki的數(shù)據(jù)可以視作社會智能。利用這三種類型的智能信息,可以很好地支持商業(yè)活動,提高企業(yè)的運行效率。

以搜索引擎為例,給定一個查詢表達式,搜索引擎進行排序時,會用到TF-IDF1,體現(xiàn)關(guān)鍵詞和文檔的匹配(數(shù)據(jù)智能),會用到page rank2(社會智能),也會用到實體、實體之間的關(guān)系(知識智能)。而且很多搜索引擎在展示結(jié)果的時候,會提供網(wǎng)頁搜索、知識圖譜以及社會關(guān)系網(wǎng)絡(luò)等的結(jié)果。

多智能自然語言處理系統(tǒng)

自然語言處理研究的基本任務(wù)是理解句子和文章的要點,推斷其意圖,進行人機自然交互,實現(xiàn)搜索、文摘、自動問答、聊天機器人、機器翻譯等多種應(yīng)用。

搜索引擎的成功啟發(fā)我們在創(chuàng)新的時候,要綜合考慮數(shù)據(jù)智能、知識智能和社會智能。本專題以自然語言處理為例,邀請多位專家對相關(guān)科學(xué)研究方法與應(yīng)用創(chuàng)新進行具體闡述。

在數(shù)據(jù)智能方面,建立安全可靠的云計算平臺,實現(xiàn)對互聯(lián)網(wǎng)和授權(quán)企業(yè)數(shù)據(jù)的及時獲取、更新。根據(jù)應(yīng)用的需要,對數(shù)據(jù)進行聚類、分類和主題抽取。利用數(shù)據(jù)的特點獲取有標(biāo)注信息的數(shù)據(jù),比如有翻譯標(biāo)注的雙語對照數(shù)據(jù)、有分詞標(biāo)注信息的數(shù)據(jù)、有地理位置信息的數(shù)據(jù)。同時,對數(shù)據(jù)的可靠性進行有效估計,對數(shù)據(jù)的質(zhì)量進行自動評定。然后,利用數(shù)據(jù)建立適合于特定應(yīng)用問題的模型,比如機器翻譯和輸入法中使用的語言模型。利用深度學(xué)習(xí)獲得詞匯的向量化表示,來計算詞匯之間的語義距離,并訓(xùn)練更加強大的語言模型。

微軟亞洲研究院劉樹杰博士等人撰寫了《深度學(xué)習(xí)在自然語言處理中的應(yīng)用》一文,介紹了一系列在人工智能方面取得突破的深度學(xué)習(xí)方法,并在分析自然語言數(shù)據(jù)與語音圖像信息差異的基礎(chǔ)上,重點介紹了自然語言處理應(yīng)用深度學(xué)習(xí)的三種基本方法,包括詞匯向量化表示、語言模型和句法分析,并具體闡述了深度學(xué)習(xí)如何幫助機器翻譯和情感分析來提升性能。

在知識智能方面,需要設(shè)計大規(guī)模知識獲取系統(tǒng),掃描互聯(lián)網(wǎng)和授權(quán)企業(yè)數(shù)據(jù),抽取實體、實體類型和實體關(guān)系,獲得知識條目。自動檢查知識庫的不一致性,提高人工編輯的修正效率。判斷知識庫缺失的知識,并自動補充。對通過多種途徑獲得的知識庫進行合并,去除冗余條目,合并相同知識條目,并消除不一致條目。利用機器翻譯把一種語言的知識庫翻譯成其他語言,加快其他語言知識庫的建設(shè)。通過多語言的知識庫支持機器翻譯和在線詞典。研究進行知識庫的快速查找和推理的圖數(shù)據(jù)庫系統(tǒng)。在知識庫基礎(chǔ)上,實現(xiàn)自然語言分析和合成、問答系統(tǒng)支持搜索和語音助手,建立通用或企業(yè)/專業(yè)領(lǐng)域知識管理系統(tǒng)。

中國科學(xué)院自動化研究所研究員趙軍撰寫的《從問答系統(tǒng)看知識智能》一文,以圖靈測試為引子,回顧了問答系統(tǒng)的發(fā)展歷程,分析了實現(xiàn)智能問答的主要局限和智能問答突破瓶頸的關(guān)鍵問題——大型開放域知識庫,闡述了當(dāng)前智能問答的研究重點,如實體消歧、關(guān)系語義分類、問句語義解析和知識推理等,并指出了未來的研究方向。

在社會智能方面,從社會關(guān)系網(wǎng)絡(luò)的實時海量數(shù)據(jù)中抽取社會智能信息(包括問答對、主題、熱點話題、用戶觀點、用戶特征),來過濾灌水、軟文等帖子,評定發(fā)帖和回復(fù)的質(zhì)量與權(quán)威性,確定帖子的情感(正面、負面或者中性),評定發(fā)帖人的權(quán)威性和影響力,提供觀點、摘要和對比摘要,改善新問題到問題-答案庫的語義匹配問題,對用戶關(guān)心的事件(比如競選結(jié)果、比賽結(jié)果、票房收入、產(chǎn)品銷量)做出預(yù)測,設(shè)計新型眾包,鼓勵網(wǎng)友貢獻知識和答案。

清華大學(xué)教授李涓子等人撰寫的文章《擁抱社會智能》,以社交網(wǎng)絡(luò)的社會關(guān)系為背景,介紹了社交網(wǎng)絡(luò)關(guān)系和社會影響力分析等微觀分析理論,重點闡述了社區(qū)發(fā)現(xiàn)、代表用戶預(yù)測、社區(qū)信息傳播分析等宏觀分析方法,并結(jié)合具體案例給出利用眾包實現(xiàn)社會智能的途徑。文章指出,應(yīng)利用我國社交網(wǎng)絡(luò)用戶多、研究水平高的優(yōu)勢發(fā)展社會智能應(yīng)用,擁抱社會智能。

哈爾濱工業(yè)大學(xué)教授劉挺等人撰寫《基于社會媒體的預(yù)測技術(shù)》的文章,從社會媒體與社會活動的關(guān)聯(lián)關(guān)系出發(fā),系統(tǒng)闡述了利用社交網(wǎng)絡(luò)進行消費意圖挖掘的方法,即結(jié)合深度學(xué)習(xí)分析社交網(wǎng)絡(luò)的短文本數(shù)據(jù),挖掘顯式及隱式消費意圖;指出基于消費意圖挖掘的電影票房預(yù)測模型,是利用社交網(wǎng)絡(luò)實現(xiàn)社會智能的典型案例。文章還介紹了基于事件抽取和因果關(guān)系等預(yù)測方法的研究進展,認為社會媒體的智能預(yù)測具有重要的研究和應(yīng)用價值。

為了實現(xiàn)多智能自然語言處理系統(tǒng),應(yīng)采用NLP2.0框架——把互聯(lián)網(wǎng)當(dāng)成一個研究平臺,在其上進行數(shù)據(jù)獲取、模型訓(xùn)練、實施,并與用戶互動。因此,首先要建立強大的數(shù)據(jù)處理平臺以支持網(wǎng)絡(luò)挖掘、信息抽取、模型訓(xùn)練和系統(tǒng)實施,支持大數(shù)據(jù)的處理和分析;同時,把自然語言研究和用戶需求、市場因素適度地聯(lián)系在一起,使之實現(xiàn)互動;此外,需要同時考慮多智能協(xié)調(diào),利用多種智能研究類人智能任務(wù)、開發(fā)互聯(lián)網(wǎng)智能應(yīng)用。

腳注:

1 TF-IDF(term frequency-inverse document frequency,詞頻-反文檔頻率)是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù),用以評估一個字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。

2 又稱佩奇排名。Page rank取自谷歌的創(chuàng)始人Larry Page。它是谷歌排名運算法則的一部分,是谷歌對網(wǎng)頁重要性的評估,是衡量一個網(wǎng)站好壞的唯一標(biāo)準(zhǔn)。

本文名稱:多智能自然語言處理
標(biāo)題鏈接:http://muchs.cn/article46/soephg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供動態(tài)網(wǎng)站、手機網(wǎng)站建設(shè)、網(wǎng)站內(nèi)鏈、云服務(wù)器、標(biāo)簽優(yōu)化品牌網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都app開發(fā)公司