AI探索基礎(chǔ)知識(shí)匯總

AI的定義

十余年的柳河網(wǎng)站建設(shè)經(jīng)驗(yàn)，針對(duì)設(shè)計(jì)、前端、開發(fā)、售后、文案、推廣等六對(duì)一服務(wù)，響應(yīng)快，48小時(shí)及時(shí)工作處理。全網(wǎng)整合營(yíng)銷推廣的優(yōu)勢(shì)是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同，自動(dòng)調(diào)整柳河建站的顯示方式，使網(wǎng)站能夠適用不同顯示終端，在瀏覽器中調(diào)整網(wǎng)站的寬度，無論在任何一種瀏覽器上瀏覽網(wǎng)站，都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì)，從而大程度地提升瀏覽體驗(yàn)。創(chuàng)新互聯(lián)公司從事“柳河網(wǎng)站設(shè)計(jì)”,“柳河網(wǎng)站推廣”以來，每個(gè)客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。

凡是通過機(jī)器學(xué)習(xí)，實(shí)現(xiàn)機(jī)器替代人力的技術(shù)，就是AI。機(jī)器學(xué)習(xí)是什么呢？機(jī)器學(xué)習(xí)是由AI科學(xué)家研發(fā)的算法模型，通過數(shù)據(jù)灌輸，學(xué)習(xí)數(shù)據(jù)中的規(guī)律并總結(jié)，即模型內(nèi)自動(dòng)生成能表達(dá)（輸入、輸出）數(shù)據(jù)之間映射關(guān)系的特定算法。這整個(gè)過程就是機(jī)器學(xué)習(xí)。

AI的根基從數(shù)學(xué)理論開始

機(jī)器學(xué)習(xí)理論（包括：監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、深度學(xué)習(xí)）

基礎(chǔ)技術(shù)（包括：機(jī)器學(xué)習(xí)ML、深度學(xué)習(xí)DL、語(yǔ)音識(shí)別ASR、語(yǔ)音合成TTS、計(jì)算機(jī)視覺CV、機(jī)器視覺MV、自然語(yǔ)言理解NLU、自然語(yǔ)言處理NLP、專家系統(tǒng)）

模型算法的結(jié)果導(dǎo)向理解：

1、對(duì)數(shù)據(jù)進(jìn)行分類，

2、找到輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的規(guī)律。

機(jī)器學(xué)習(xí)的抽象流程是：

訓(xùn)練機(jī)器階段，

讓模型對(duì)輸入數(shù)據(jù)進(jìn)行分類，且找到規(guī)律；

測(cè)試階段，

數(shù)據(jù)進(jìn)入模型時(shí)，模型對(duì)數(shù)據(jù)進(jìn)行分類，每一個(gè)測(cè)試數(shù)據(jù)都?xì)w類到訓(xùn)練數(shù)據(jù)類別中對(duì)應(yīng)的一個(gè)類別，然后根據(jù)訓(xùn)練找到的規(guī)律計(jì)算出輸出值（即答案）；

欠擬合或者過擬合的情況下，要清洗訓(xùn)練數(shù)據(jù)、調(diào)整參數(shù)以及重復(fù)訓(xùn)練；達(dá)到最佳擬合后，機(jī)器學(xué)習(xí)完成。

監(jiān)督學(xué)習(xí)

準(zhǔn)備樣本（樣本通常準(zhǔn)備兩組：訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)），

先將訓(xùn)練數(shù)據(jù)（即標(biāo)記樣本）給到機(jī)器，同時(shí)提供標(biāo)準(zhǔn)答案（有答案的樣本數(shù)據(jù)屬于“標(biāo)記樣本”），機(jī)器盡量從訓(xùn)練數(shù)據(jù)中找到因變量和自變量之間的關(guān)系，讓自己推測(cè)的答案盡量跟標(biāo)準(zhǔn)答案靠近。

訓(xùn)練過程中機(jī)器嘗試生成我們需要的算法，這個(gè)算法就是我們要機(jī)器學(xué)習(xí)出來的結(jié)果。

然后我們給機(jī)器測(cè)試樣本（測(cè)試數(shù)據(jù)），不提供標(biāo)準(zhǔn)答案，看機(jī)器推理出答案的準(zhǔn)確率怎么樣，如果準(zhǔn)確率太低（欠擬合），那我們就要調(diào)整模型的參數(shù)，并且再訓(xùn)練機(jī)器，接著又用測(cè)試數(shù)據(jù)測(cè)試，直到機(jī)器達(dá)到了我們期望的準(zhǔn)確率。

監(jiān)督學(xué)習(xí)的算法分類

1）KNN臨近算法（找輸入數(shù)據(jù)跟訓(xùn)練數(shù)據(jù)最近的點(diǎn)）

2）決策樹ID3算法（根據(jù)數(shù)據(jù)特征進(jìn)行分支）

3）logistic邏輯回歸算法（特征和結(jié)果不滿足線性時(shí)，使用邏輯回歸算法）

4）支持向量機(jī)SVM（能判斷分類是否正確，通過計(jì)算一條線或者面把數(shù)據(jù)正確的區(qū)分開來）

5）樸素貝葉斯分類算法（計(jì)算數(shù)據(jù)被分到每一個(gè)類別的概率，概率大的為該輸入數(shù)的類別）

無監(jiān)督學(xué)習(xí)

機(jī)器學(xué)習(xí)是否有監(jiān)督，就看訓(xùn)練時(shí)輸入的數(shù)據(jù)是否有標(biāo)簽（標(biāo)簽即標(biāo)注輸入數(shù)據(jù)對(duì)應(yīng)的答案）。無監(jiān)督學(xué)習(xí)即訓(xùn)練時(shí)輸入數(shù)據(jù)無標(biāo)簽，無監(jiān)督學(xué)習(xí)利用聚類算法。

1）K-聚類（聚類算法）【將數(shù)據(jù)分成K個(gè)子集，每個(gè)子集計(jì)算一個(gè)均值，輸入數(shù)據(jù)最接近那個(gè)均值就屬于哪個(gè)類】

2）主成分分析法

半監(jiān)督學(xué)習(xí)

狹義上【半監(jiān)督學(xué)習(xí)】要分為transductive SVM、inductive SVM、Co-training、label propagation

我們可以嘗試用另外一種方法分類【半監(jiān)督學(xué)習(xí)】，即“分類半監(jiān)督”、“聚類半監(jiān)督”

分類半監(jiān)督—

舉例說明就是先用標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練，然后加入無標(biāo)簽數(shù)據(jù)訓(xùn)練，無標(biāo)簽數(shù)據(jù)輸入時(shí)，會(huì)根據(jù)數(shù)據(jù)特征及特征值，看該數(shù)據(jù)與有標(biāo)簽數(shù)據(jù)分類中哪一類更接近（支持向量機(jī)SVM的方法就可以幫助找到最接近哪一類），就視為該類數(shù)據(jù)；或者是，看該數(shù)據(jù)與有標(biāo)簽數(shù)據(jù)哪一個(gè)最接近（KNN的方法就可以找到最接近的那個(gè)數(shù)據(jù)），則把該無標(biāo)簽數(shù)據(jù)替換為該標(biāo)簽數(shù)據(jù)。

聚類半監(jiān)督—

通常是在有標(biāo)簽數(shù)據(jù)的“標(biāo)簽不確定”的情況下利用（比如這個(gè)輸入數(shù)據(jù)的答案可能是xxx），“聚類半監(jiān)督”就是重點(diǎn)先完成數(shù)據(jù)的分類，然后嘗試根據(jù)標(biāo)簽數(shù)據(jù)訓(xùn)練提供的標(biāo)簽預(yù)測(cè)結(jié)果。

強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)理論一：馬爾科夫決策

機(jī)器需要理解環(huán)境、分析環(huán)境，并且要推測(cè)出完成一個(gè)動(dòng)作得到獎(jiǎng)勵(lì)的概率。該理論完全滿足馬爾科夫決策。馬爾可夫的核心：在一個(gè)狀態(tài)下，可以采取一些動(dòng)作，每一個(gè)動(dòng)作都有一個(gè)“轉(zhuǎn)化狀態(tài)”且可以得出對(duì)應(yīng)“轉(zhuǎn)化狀態(tài)”的概率（或該“轉(zhuǎn)化狀態(tài)”能獲取獎(jiǎng)勵(lì)的概率）。而強(qiáng)化學(xué)習(xí)的目標(biāo)就是學(xué)習(xí)怎樣讓每一次行動(dòng)都是為了達(dá)到最有價(jià)值的“轉(zhuǎn)化狀態(tài)”上。

1） model based(算法：Qleaning, Sarsa, Policy Gradients)

理解真實(shí)環(huán)境，建立一個(gè)模擬環(huán)境的模型，有想象能力，根據(jù)想象預(yù)判結(jié)果，最后選擇想象中結(jié)果最好的那一種作為參考進(jìn)行下一步。

2）policy based(算法：Policy Gradients, Actor-critic)

通過感官分析環(huán)境，推測(cè)出下一步要進(jìn)行的各種動(dòng)作的概率，取概率大的作為實(shí)際行動(dòng)的參考。

3）value based(算法：Qleaning, Sarsa)

推測(cè)出所有動(dòng)作的價(jià)值，根據(jù)價(jià)值最高的作為實(shí)際動(dòng)作的參考。

4）On policy(算法：Sarsa, Sarsa lambda)

必須親自參與

5）Off policy(算法：Qleaning, Deep-Q-Network)

可親自參與；也可以不親自參與，通過觀看其他人或機(jī)器，對(duì)其他人或機(jī)器進(jìn)行模仿。

強(qiáng)化學(xué)習(xí)理論二：

agent不需要理解環(huán)境、分析環(huán)境時(shí)，做出決策，該決策正確時(shí)獎(jiǎng)勵(lì)，錯(cuò)誤時(shí)不獎(jiǎng)勵(lì)或懲罰。agent不會(huì)在動(dòng)作時(shí)去計(jì)算是否得到獎(jiǎng)勵(lì)的概率。

agent能夠執(zhí)行多種action，但它每次只能選擇一個(gè)action來執(zhí)行，agent任意執(zhí)一個(gè)action來改變當(dāng)前狀態(tài)，一個(gè)action被執(zhí)行后，environment會(huì)通過觀測(cè)得出一個(gè)observation，這個(gè)observation會(huì)被agent接收，同時(shí)會(huì)出現(xiàn)一個(gè)reward也會(huì)被agent接收（這個(gè)reward也來自于environment，environment可以通過推測(cè)或直接判斷action結(jié)束時(shí)達(dá)到的效果是否是AI工程師想要的效果來決定這個(gè)reward是正值還是負(fù)值，當(dāng)然負(fù)值相當(dāng)于是“懲罰”了）。agent在執(zhí)行action時(shí)并不會(huì)知道結(jié)果會(huì)怎樣，當(dāng)agent接收到environment的observation時(shí)，agent仍然是一無所知的（因?yàn)閍gent不理解environment），但由于environment同時(shí)反饋reward，agent才知道執(zhí)行的action好還是不好。agent會(huì)記住這次reward是正值還是負(fù)值，以后的action都會(huì)參考這次記憶。強(qiáng)化學(xué)習(xí)理論二對(duì)比一的區(qū)別就是：二并非在每一步都計(jì)算一個(gè)概率（所以二并非完全符合馬爾科夫決策）。

1）model free(算法：Qleaning, Sarsa, Policy Gradients)

不理解環(huán)境，等待環(huán)境反饋，根據(jù)反饋進(jìn)行下一步。

2）Monte-carlo update(算法：Policy Gradients, Monte-carlo leaning)

等待所有過程結(jié)束，事后總結(jié)所有轉(zhuǎn)折點(diǎn)

3）Temporal difference update(算法：Qleaning, Sarsa)

過程中每一步都總結(jié)一下

4）On policy(算法：Sarsa, Sarsa lambda)

必須親自參與

5）Off policy(算法：Qleaning, Deep-Q-Network)

可親自參與；也可以不親自參與，通過觀看其他人或機(jī)器，對(duì)其他人或機(jī)器進(jìn)行模仿。

強(qiáng)化學(xué)習(xí)不糾結(jié)于找出一條規(guī)律／算法，它只關(guān)心結(jié)果輸出時(shí)能否得到獎(jiǎng)勵(lì)。之前提到的機(jī)器學(xué)習(xí)都是解決分類問題，而強(qiáng)化學(xué)習(xí)是解決“決策”問題。

遷移學(xué)習(xí)

將一個(gè)已經(jīng)開發(fā)過的任務(wù)模型（源域）重復(fù)利用，作為第二個(gè)任務(wù)模型（目標(biāo)域）的起點(diǎn)。深度學(xué)習(xí)中會(huì)經(jīng)常用到遷移學(xué)習(xí)，遷移時(shí)（復(fù)用時(shí)），可以全部使用或部分使用第一個(gè)模型（源任務(wù)模型），當(dāng)然這取決于第一個(gè)模型的建模邏輯是否允許。遷移學(xué)習(xí)是特別好的降低（獲取樣本數(shù)據(jù)、打標(biāo)簽）成本的方法。

1）樣本遷移法

看看目標(biāo)域的樣本數(shù)據(jù)跟源域中訓(xùn)練數(shù)據(jù)哪部分相似，把目標(biāo)域中這部分樣本數(shù)據(jù)的特征值照著相似的源域中的樣本數(shù)據(jù)的特征值調(diào)整，盡量調(diào)到一樣，然后再把調(diào)過的數(shù)據(jù)權(quán)重值提高。這個(gè)方法是最簡(jiǎn)單的遷移學(xué)習(xí)方法，不過人工去調(diào)，如果經(jīng)驗(yàn)不足，容易造成極大誤差。

2）特征遷移法

找到源域同目標(biāo)域的數(shù)據(jù)中的共同特征，將這些共同特征的數(shù)據(jù)都放到同一個(gè)坐標(biāo)空間里，形成一個(gè)數(shù)據(jù)分布。這樣就可以得到一個(gè)數(shù)據(jù)量更大且更優(yōu)質(zhì)的模型空間。

3）模型遷移法

源域的整個(gè)模型都遷移到目標(biāo)域。最完整的遷移，但是可能會(huì)因?yàn)樵从蚰Ｐ偷奶赜械哪切?duì)目標(biāo)域來說沒有的數(shù)據(jù)、特征、特征值等，在目標(biāo)域中反而會(huì)有干擾效果（類似與“過擬合”）。

4）關(guān)系遷移法

當(dāng)兩個(gè)域相似時(shí)，可以直接將源域的邏輯網(wǎng)絡(luò)關(guān)系在目標(biāo)域中進(jìn)行應(yīng)用。比如我們將人的大腦神經(jīng)網(wǎng)絡(luò)的邏輯關(guān)系遷移到AI神經(jīng)網(wǎng)絡(luò)中，因?yàn)閺倪壿嬌线@兩者我們覺得是一樣的。

深度學(xué)習(xí)

深度學(xué)習(xí)可以理解為是多個(gè)簡(jiǎn)單模型組合起來，實(shí)現(xiàn)多層神經(jīng)網(wǎng)絡(luò)，每層神經(jīng)網(wǎng)絡(luò)（也可以叫做神經(jīng)元）處理一次數(shù)據(jù)，然后傳遞到下一層繼續(xù)處理。這種多層的結(jié)構(gòu)比起淺層學(xué)習(xí)的模型優(yōu)勢(shì)在于，可以提取出數(shù)據(jù)特征（無需人工提?。！吧疃取辈]有絕對(duì)的定義，語(yǔ)音識(shí)別的模型中4層神經(jīng)網(wǎng)絡(luò)就算深了，但在圖像識(shí)別的模型中，20層也不算很深。

1）DNN深度神經(jīng)網(wǎng)絡(luò)

深度神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)最基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)。有很多層（每一層為一個(gè)神經(jīng)元）從上往下排列，每一個(gè)層相互連接。有個(gè)缺點(diǎn)就是，正因?yàn)槊恳粚又g連接起來，出現(xiàn)了參數(shù)數(shù)量膨脹問題（因?yàn)槊恳粚由婕暗揭粋€(gè)算法，每一個(gè)算法都有自己的各種參數(shù)），這樣的情況下容易過擬合（實(shí)現(xiàn)了局部最佳但整體擬合不佳）。

2）CNN卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)有“卷積核”，這個(gè)“卷積核”可以作為介質(zhì)連接神經(jīng)元，用“卷積核”連接神經(jīng)元時(shí)就不需要每一層都連接了。

3）RNN循環(huán)神經(jīng)網(wǎng)絡(luò)

因?yàn)镈NN還有一個(gè)缺點(diǎn)，無法對(duì)時(shí)間序列上發(fā)生的變化進(jìn)行建模，如果在語(yǔ)音識(shí)別、自然語(yǔ)言處理等應(yīng)用中使用AI模型時(shí)，數(shù)據(jù)的時(shí)間順序影響很大。所以RNN就出現(xiàn)了，RNN能彌補(bǔ)DNN的缺點(diǎn)，可以在時(shí)間序列上發(fā)生的變化進(jìn)行建模。

基礎(chǔ)概念:

擬合

擬合是用來形容訓(xùn)練結(jié)束后效果好壞的。1）欠擬合當(dāng)訓(xùn)練數(shù)據(jù)少、數(shù)據(jù)質(zhì)量差的時(shí)候，訓(xùn)練出來的模型質(zhì)量就差（或者說損失函數(shù)過大），這時(shí)進(jìn)行測(cè)試的時(shí)候，就會(huì)出現(xiàn)誤差大，即“欠擬合”狀況。2）過擬合在訓(xùn)練階段，反復(fù)用同樣的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練，可以讓訓(xùn)練效果變得更好（損失函數(shù)?。瑫r(shí)機(jī)器會(huì)因?yàn)橐_(dá)到最好的訓(xùn)練效果，將訓(xùn)練數(shù)據(jù)中不重要的特征或只有訓(xùn)練數(shù)據(jù)才有的某些特征進(jìn)行利用得太重或開始學(xué)習(xí)不需要的細(xì)節(jié)，也就是說機(jī)器對(duì)訓(xùn)練數(shù)據(jù)太過依賴，最后就會(huì)出現(xiàn)在訓(xùn)練數(shù)據(jù)上表現(xiàn)特別好，但在其他數(shù)據(jù)上表現(xiàn)不佳。這樣的情況叫做“過擬合“。3）最佳擬合欠擬合、過擬合都不是我們需要的。我們要的是最佳擬合。所以我們?cè)谟?xùn)練機(jī)器時(shí)要注意平衡。最佳點(diǎn)在哪里呢？最佳點(diǎn)在訓(xùn)練的損失函數(shù)還在減小，而測(cè)試的損失函數(shù)在減小之后突然開始增大的該點(diǎn)上。此時(shí)我們就達(dá)到了“最佳擬合”。4.2、泛化性訓(xùn)練好的模型在其他數(shù)據(jù)上的表現(xiàn)好壞用泛化性形容。在其他數(shù)據(jù)上表現(xiàn)越好，泛化性越高。4.3、損失函數(shù)用于評(píng)估“不準(zhǔn)確”的程度，它是衡量模型估算值和真實(shí)值差距的標(biāo)準(zhǔn)。損失函數(shù)（loss）越小，則模型的估算值和真實(shí)值的差距越小，通常情況下我們要把loss降到最低。

標(biāo)簽

指給數(shù)據(jù)標(biāo)記的答案。標(biāo)記好答案的數(shù)據(jù)叫做“標(biāo)簽數(shù)據(jù)”。

特征值

特征（feature）的值。比如房子有特征（feature）：空間、價(jià)格。它的特征值：（空間）200平方米、（價(jià)格）1500萬。一般在機(jī)器學(xué)習(xí)的監(jiān)督學(xué)習(xí)中，我們需要對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行特征提取的處理，即標(biāo)記好每個(gè)數(shù)據(jù)有哪些特征和對(duì)應(yīng)特征值。當(dāng)特征值損失的情況：在實(shí)際的機(jī)器學(xué)習(xí)過程中，有時(shí)候會(huì)發(fā)生數(shù)據(jù)缺失的問題，比如一個(gè)數(shù)據(jù)有X個(gè)特征，但是由于意外發(fā)生，我們只得到部分（小于X）特征的值，在這種情況下，為了不浪費(fèi)整個(gè)樣本資源，且可以順利的繼續(xù)機(jī)器學(xué)習(xí)，我們需要有一些彌補(bǔ)措施：1）人為設(shè)置某些特征的特征值（根據(jù)經(jīng)驗(yàn)），然后利用；2）找到相似的另一組樣本，用另一組樣本的特征平均值代替缺失的特征值；3）用其他的機(jī)器學(xué)習(xí)模型專門針對(duì)缺失的特征值進(jìn)行學(xué)習(xí)然后利用該模型找出缺失特征值；4）使用已有特征值的均值來替代未知特征值；5）在機(jī)器學(xué)習(xí)過程中用一些方法，讓機(jī)器忽略已缺失特征值的數(shù)據(jù)。

類別

物以類聚人以群分，特征相同的數(shù)據(jù)就是同一類別。機(jī)器學(xué)習(xí)中特別重要的一個(gè)步驟就是利用算法將數(shù)據(jù)分類（學(xué)習(xí)算法里邊會(huì)提到多種實(shí)現(xiàn)數(shù)據(jù)分類的算法），機(jī)器會(huì)盡量將所有輸入數(shù)據(jù)進(jìn)行分類，分類的邏輯就是通過數(shù)據(jù)的“特征”，特征接近的數(shù)據(jù)會(huì)被機(jī)器認(rèn)為是同一類別的數(shù)據(jù)。

分類&聚類

分類是目前最簡(jiǎn)單也是效果最好的一類算法（比如KNN、決策樹ID3、logistic回歸、SVM等都屬于分類算法）。分類算法的前提條件是訓(xùn)練數(shù)據(jù)必須帶有標(biāo)簽。聚類是目前相對(duì)分類更復(fù)雜同時(shí)效果更差的一類算法（無監(jiān)督學(xué)習(xí)就是用聚類算法）。聚類算法的優(yōu)勢(shì)是可以訓(xùn)練數(shù)據(jù)不需要標(biāo)簽。表面上看來分類算法比聚類算法好用很多，那我們還要用聚類算法的理由是什么呢？其實(shí)，在實(shí)際情況下，訓(xùn)練機(jī)器時(shí)，要給數(shù)據(jù)打標(biāo)簽是個(gè)人工消耗極大的工作，不僅工作量大，很多時(shí)候?qū)?shù)據(jù)打準(zhǔn)確的標(biāo)簽難度也大。

決策樹

根據(jù)數(shù)據(jù)的特征值對(duì)數(shù)據(jù)進(jìn)行不斷分支，直到不可再分支（附決策樹形象圖）。決策樹的每一次對(duì)數(shù)據(jù)分支，就消耗一個(gè)特征值。當(dāng)所有特征值消耗完后，決策樹成形。決策樹的每一個(gè)節(jié)點(diǎn)，即每一次對(duì)特征分支時(shí)，通常以yes/no的判斷形式進(jìn)行劃分（所以才叫“決策樹”嘛）。決策樹幫助機(jī)器對(duì)數(shù)據(jù)進(jìn)行分類（根據(jù)特征，決策樹的分裂點(diǎn)即特征分別點(diǎn)），決策樹形成后，滿足一條分枝上所有分裂點(diǎn)條件的為同一類數(shù)據(jù)。要注意的是，有時(shí)候決策樹分枝太長(zhǎng)，會(huì)導(dǎo)致過擬合。因?yàn)闆Q策樹很可能把訓(xùn)練數(shù)據(jù)中不太有代表性的特征放在分裂點(diǎn)上，這樣形成的決策樹不適應(yīng)與訓(xùn)練數(shù)據(jù)之外的數(shù)據(jù)了。如果出現(xiàn)這種情況，需要“剪枝”，枝越長(zhǎng)，說明模型可能越依賴訓(xùn)練數(shù)據(jù)，在枝的長(zhǎng)短上，要做一個(gè)平衡，平衡的原則請(qǐng)參考本文提到的“欠擬合”與“過擬合”的關(guān)鍵詞解釋。

知識(shí)圖譜

知識(shí)圖譜是模擬物理世界的實(shí)物與實(shí)物之間的關(guān)系，知識(shí)圖譜呈現(xiàn)為無限擴(kuò)散的類網(wǎng)狀結(jié)構(gòu)。它的結(jié)構(gòu)組成為“實(shí)體”—“關(guān)系”--“實(shí)體”，以及“實(shí)體”--“屬性”--“值”。知識(shí)圖譜使得AI找到一個(gè)信息時(shí)，同時(shí)也獲得了更多跟跟這個(gè)信息相關(guān)的其他信息。

基礎(chǔ)技術(shù)

語(yǔ)音識(shí)別（ASR）

一句話定義就是：將人類聲音轉(zhuǎn)化成文字的過程。按識(shí)別范圍分類為“封閉域識(shí)別”和“開放域識(shí)別”。封閉域識(shí)別：在預(yù)先指定的字／詞集合內(nèi)進(jìn)行識(shí)別。如此可將聲學(xué)模型和語(yǔ)音模型進(jìn)行剪裁，識(shí)別引擎的計(jì)算量也變低?？梢詫⒁娣庋b于嵌入式芯片或本地化SDK，脫離云端，且不會(huì)影響識(shí)別率。開放域識(shí)別：在整個(gè)語(yǔ)言大集合中識(shí)別。引擎計(jì)算量大，直接封裝到嵌入式芯片或本地SDK中，耗能高且識(shí)別效果差，所以一般都只以云端形式提供。

計(jì)算機(jī)視覺（CV）

自然語(yǔ)言處理（NLP）

一句話定義：自然語(yǔ)言處理（NLP）是指機(jī)器理解并解釋人類寫作、說話方式的能力。NLP又包含NLU（自然語(yǔ)言理解）、NLG（自然語(yǔ)言生成）。自然語(yǔ)言處理中最重要的3個(gè)環(huán)節(jié)是分詞、鎖定關(guān)鍵詞、文本相似度計(jì)算。因?yàn)槟壳皺C(jī)器的語(yǔ)言識(shí)別其實(shí)都是基于對(duì)詞的識(shí)別，任何句子進(jìn)行自然語(yǔ)言處理時(shí)第一步都是要分詞，比如：“我是產(chǎn)品經(jīng)理”，分詞后變成“我-是-產(chǎn)品-經(jīng)理”。分詞之后，要找到“關(guān)鍵詞”，“關(guān)鍵詞”是提供重要信息、最多信息的詞，比如在“我是產(chǎn)品經(jīng)理”句子被分詞后，機(jī)器會(huì)選擇“產(chǎn)品”、“經(jīng)理”為該句子“關(guān)鍵詞”。文本相似度有歐氏距離、曼哈頓距離等算法

技術(shù)分層

從技術(shù)實(shí)現(xiàn)的效果的角度將AI技術(shù)進(jìn)行分層：

1）認(rèn)知，通過收集、解析信息對(duì)世界和環(huán)境進(jìn)行認(rèn)知。包括圖片處理技術(shù)、語(yǔ)音識(shí)別、自然語(yǔ)言識(shí)別技術(shù)。

2）預(yù)測(cè)行為和結(jié)果。比如在用戶行為研究的基礎(chǔ)上根據(jù)對(duì)用戶當(dāng)前行為的識(shí)別，預(yù)測(cè)用戶下一步想做什么，然后主動(dòng)滿足用戶。

3）確定實(shí)現(xiàn)的方式和路徑。比如AI代替醫(yī)生給病人看病，得出病癥和治病方案。

AI的常用語(yǔ)言及框架

市場(chǎng)上有的AI框架包括TensorFlow、Caffe、Torch、Theano等等，目前大部分工程師利用的是Tensorflow。AI編程可以利用多種計(jì)算機(jī)語(yǔ)言，目前最常用的是C++和python。

AI的價(jià)值

互聯(lián)網(wǎng)的價(jià)值在于降低成本、提高效率；而AI 可以替代人力，讓成本直接為0，其蘊(yùn)含的市場(chǎng)價(jià)值比互聯(lián)網(wǎng)技術(shù)的市場(chǎng)價(jià)值更高。

AI的邊界

要理解AI的邊界，就必須從AI三要素切入。三要素分別為算法、計(jì)算力、數(shù)據(jù)。我們通過對(duì)已有模型算法的理解，計(jì)算力的認(rèn)知以及對(duì)可獲取數(shù)據(jù)的判斷，就可以推測(cè)出我們落地時(shí)可實(shí)現(xiàn)哪些，以及可實(shí)現(xiàn)到什么程度。有一個(gè)宏觀判斷邊界的快捷法，叫做“1秒法則”：當(dāng)前的AI可以實(shí)現(xiàn)到處理人1秒內(nèi)可以想到答案的問題。而且這個(gè)問題還得滿足以下特點(diǎn)：大規(guī)模、重復(fù)性、限定領(lǐng)域。

模型訓(xùn)練

這部分基本交由算法同事跟進(jìn)，但產(chǎn)品可依據(jù)需求，向算法同事提出需要注意的方面；舉個(gè)栗子：一個(gè)識(shí)別車輛的產(chǎn)品現(xiàn)在對(duì)大眾車某系列的識(shí)別效果非常不理想，經(jīng)過跟蹤發(fā)現(xiàn)是因?yàn)樵撥囅岛土硗庖粋€(gè)品牌的車型十分相似。而本次數(shù)據(jù)標(biāo)注主要針對(duì)大眾車系的數(shù)據(jù)做了補(bǔ)充，也修改了大批以往的錯(cuò)誤標(biāo)注。（這兩種為優(yōu)化數(shù)據(jù)的基本方式）本次模型需要重點(diǎn)關(guān)注大眾某車系的識(shí)別效果，至少將精確率提高5%。產(chǎn)品將具體的需求給到算法工程師，能避免無目的性、無針對(duì)性、無緊急程度的工作。

模型測(cè)試

測(cè)試同事（一般來說算法同事也會(huì)直接負(fù)責(zé)模型測(cè)試）將未被訓(xùn)練過的數(shù)據(jù)在新的模型下做測(cè)試。如果沒有后臺(tái)設(shè)計(jì)，測(cè)試結(jié)果只能由人工抽樣計(jì)算，抽樣計(jì)算繁瑣且效率較低。因此可以考慮由后臺(tái)計(jì)算。

一般來說模型測(cè)試至少需要關(guān)注兩個(gè)指標(biāo)：

1.精確率：識(shí)別為正確的樣本數(shù)/識(shí)別出來的樣本數(shù)

2.召回率：識(shí)別為正確的樣本數(shù)/所有樣本中正確的數(shù)

模型的效果需要在這兩個(gè)指標(biāo)之間達(dá)到一個(gè)平衡。測(cè)試同事需要關(guān)注一領(lǐng)域內(nèi)每個(gè)類別的指標(biāo)，比如針對(duì)識(shí)別人臉的表情，里面有喜怒哀樂等等分類，每一個(gè)分類對(duì)應(yīng)的指標(biāo)都是不一樣的。測(cè)試同事需要將測(cè)試的結(jié)果完善地反饋給算法同事，算法同事才能找準(zhǔn)模型效果欠缺的原因。同時(shí)測(cè)試同事將本次模型的指標(biāo)結(jié)果反饋給產(chǎn)品，由產(chǎn)品評(píng)估是否滿足上線需求。

產(chǎn)品評(píng)估評(píng)估

模型是否滿足上線需求是產(chǎn)品必須關(guān)注的，一旦上線會(huì)影響到客戶的使用感。因此在模型上線之前，產(chǎn)品需反復(fù)驗(yàn)證模型效果。為了用數(shù)據(jù)對(duì)比本模型和上一個(gè)模型的優(yōu)劣，需要每次都記錄好指標(biāo)數(shù)據(jù)。假設(shè)本次模型主要是為了優(yōu)化領(lǐng)域內(nèi)其中一類的指標(biāo)，在關(guān)注目的的同時(shí)，產(chǎn)品還需同時(shí)注意其他類別的效果，以免漏洞產(chǎn)生。

產(chǎn)品工作補(bǔ)充

產(chǎn)品的工作不止是產(chǎn)品評(píng)估：除了流程控制，質(zhì)量評(píng)估。針對(duì)分類問題，由產(chǎn)品制定的邊界非常重要，直接影響模型是否滿足市場(chǎng)需求。產(chǎn)品制定的分類規(guī)則：例如，目的是希望模型能夠識(shí)別紅色，那產(chǎn)品需要詳細(xì)描述“紅色”包含的顏色，暗紅色算紅色嗎？紫紅色算紅色嗎？紫紅色算是紅色還是紫色？這些非常細(xì)節(jié)的規(guī)則都需要產(chǎn)品設(shè)定。若果分類細(xì)，那么針對(duì)一類的數(shù)據(jù)就會(huì)少。如果分類大，那么一些有歧義的數(shù)據(jù)就會(huì)被放進(jìn)該分類，也會(huì)影響模型效果。

創(chuàng)新互聯(lián)面向全國(guó)提供域名注冊(cè)、虛擬主機(jī)、云服務(wù)器、服務(wù)器托管與租用，如需了解，請(qǐng)聯(lián)系QQ:171356849微信：zh18159893430 咨詢，謝謝！

新聞名稱：AI探索基礎(chǔ)知識(shí)匯總
新聞來源：http://muchs.cn/article8/poop.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站內(nèi)鏈、外貿(mào)網(wǎng)站建設(shè)、標(biāo)簽優(yōu)化、外貿(mào)建站、移動(dòng)網(wǎng)站建設(shè)、品牌網(wǎng)站制作

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容