怎樣解決AI的小數(shù)據(jù)問題

本篇文章給大家分享的是有關(guān)怎樣解決AI的小數(shù)據(jù)問題,小編覺得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。

十年的安溪網(wǎng)站建設(shè)經(jīng)驗(yàn),針對(duì)設(shè)計(jì)、前端、開發(fā)、售后、文案、推廣等六對(duì)一服務(wù),響應(yīng)快,48小時(shí)及時(shí)工作處理。成都營銷網(wǎng)站建設(shè)的優(yōu)勢是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動(dòng)調(diào)整安溪建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì),從而大程度地提升瀏覽體驗(yàn)。創(chuàng)新互聯(lián)建站從事“安溪網(wǎng)站設(shè)計(jì)”,“安溪網(wǎng)站推廣”以來,每個(gè)客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。

解決AI的小數(shù)據(jù)問題對(duì)深度學(xué)習(xí)算法,如果沒有足夠多的數(shù)據(jù)進(jìn)行訓(xùn)練,有兩種方法可以解決這個(gè)問題:生成合成數(shù)據(jù),或者開發(fā)可利用小數(shù)據(jù)展開工作的 AI 模型。
眾所周知,深度學(xué)習(xí)需要數(shù)據(jù),其模型訓(xùn)練都是在大量標(biāo)記數(shù)據(jù)的基礎(chǔ)上進(jìn)行的,比如,利用數(shù)以百萬計(jì)的動(dòng)物標(biāo)記圖像訓(xùn)練 AI 學(xué)會(huì)識(shí)別。但大量標(biāo)記數(shù)據(jù)對(duì)某些應(yīng)用來說并不適用,在這種情況下,從頭開始訓(xùn)練一個(gè) AI 模型,即使可能,也充滿了困難。
一個(gè)潛在的解決方案是用合成數(shù)據(jù)擴(kuò)充真實(shí)數(shù)據(jù)集。這在自動(dòng)駕駛領(lǐng)域得到了廣泛的應(yīng)用。自動(dòng)駕駛汽車在逼真的模擬環(huán)境中行駛數(shù)百萬英里,會(huì)面臨暴風(fēng)雪以及行人突發(fā)行為等各種情況,而針對(duì)這些情況,我們很難獲取到真實(shí)數(shù)據(jù)。

圍繞數(shù)據(jù)問題的另一種解決方案是開發(fā)能夠基于小數(shù)據(jù)集進(jìn)行學(xué)習(xí)的 AI 模型。一種名為遷移學(xué)習(xí)(transfer learning)的方法已在計(jì)算機(jī)視覺任務(wù)中得到應(yīng)用。該方法使用預(yù)先訓(xùn)練的 AI 算法來執(zhí)行一個(gè)有大量標(biāo)記數(shù)據(jù)的任務(wù)(如識(shí)別圖像中的汽車),然后將該知識(shí)轉(zhuǎn)移到另一個(gè)數(shù)據(jù)很少的不同任務(wù)上(如識(shí)別卡車)。使用預(yù)先訓(xùn)練的模型就像包餃子時(shí)使用現(xiàn)成的餃子皮,免去了和面的步驟。

雖然預(yù)先訓(xùn)練的模型在計(jì)算機(jī)視覺領(lǐng)域已經(jīng)取得了長足的發(fā)展,但在自然語言處理(NLP)領(lǐng)域,由于缺乏標(biāo)記數(shù)據(jù),到目前為止,一直是一項(xiàng)極具挑戰(zhàn)的工作。不過,一種名為自我監(jiān)督預(yù)訓(xùn)練(self-supervised pre-training)的方法在自然語言處理領(lǐng)域中逐漸流行起來。

所謂自我監(jiān)督預(yù)訓(xùn)練,首先要根據(jù)網(wǎng)絡(luò)上的大量數(shù)據(jù)訓(xùn)練 AI 模型。例如,OpenAI 進(jìn)行了一項(xiàng)計(jì)算極其密集的任務(wù):用 800 萬個(gè)網(wǎng)頁作為訓(xùn)練數(shù)據(jù),訓(xùn)練一個(gè)基于給定文本預(yù)測下一文本詞匯的 AI 模型。這一方法被稱為自我監(jiān)督學(xué)習(xí),因?yàn)檫@里不涉及“標(biāo)簽”:AI 通過基于句子中的其他單詞預(yù)測一個(gè)隱藏的單詞來學(xué)習(xí)語言。

另一個(gè)典型的例子是谷歌 BERT,其 AI 語言模型不僅可以根據(jù)前文內(nèi)容進(jìn)行預(yù)測,還可以基于后文展開,也就是說該模型采用了雙向語言模型的方式,能夠更好的融合前后文的知識(shí)。

由 Yann LeCun 領(lǐng)導(dǎo)的 Facebook AI 研究部門一直都看好自我監(jiān)督。比如,他們首先會(huì)訓(xùn)練出一個(gè)語言模型,然后進(jìn)行預(yù)訓(xùn)練,并對(duì)其進(jìn)行微調(diào)以進(jìn)行仇恨言論的識(shí)別。Facebook 還開源了其自我監(jiān)督語音識(shí)別模型,很好地解決了小型研究項(xiàng)目對(duì)人工標(biāo)記文本的需求問題。非英語語言的標(biāo)注訓(xùn)練數(shù)據(jù)往往數(shù)量有限,針對(duì)這個(gè)問題, Facebook 開源了代碼 wav2vec,這對(duì)非英語語言的語音識(shí)別尤其有用。

以上就是怎樣解決AI的小數(shù)據(jù)問題,小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘9ぷ鲿?huì)見到或用到的。希望你能通過這篇文章學(xué)到更多知識(shí)。更多詳情敬請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

當(dāng)前標(biāo)題:怎樣解決AI的小數(shù)據(jù)問題
網(wǎng)站路徑:http://muchs.cn/article28/pdgcjp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設(shè)計(jì)公司動(dòng)態(tài)網(wǎng)站、微信公眾號(hào)網(wǎng)站改版、用戶體驗(yàn)、虛擬主機(jī)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都seo排名網(wǎng)站優(yōu)化