機器學習筆記-模式識別-創(chuàng)新互聯(lián)

  1. 平均分布(Uniform Distribution) 跟正態(tài)分布(normaldistribution)

    讓客戶滿意是我們工作的目標,不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術(shù)通過有效、簡單的方式提供給客戶,將通過不懈努力成為客戶在信息化領(lǐng)域值得信任、有價值的長期合作伙伴,公司提供的服務(wù)項目有:域名與空間、雅安服務(wù)器托管、營銷軟件、網(wǎng)站建設(shè)、臨澤網(wǎng)站維護、網(wǎng)站推廣。

    分布特性可以讓我們通過一部分的數(shù)了解整體的分布

   正態(tài)分布特性:

     平均值(mean) = 中位數(shù)(median) = 眾數(shù)(model)

       密度函數(shù)關(guān)于平均值對稱

                            函數(shù)曲線下68.268949%的面積在平均數(shù)左右的一個標準差范圍內(nèi)

                         95.449974%的面積在平均數(shù)左右兩個標準差{\displaystyle 2\sigma }機器學習筆記-模式識別的范圍內(nèi)。

                         99.730020%的面積在平均數(shù)左右三個標準差{\displaystyle 3\sigma }機器學習筆記-模式識別的范圍內(nèi)

                            99.993666%的面積在平均數(shù)左右四個標準差{\displaystyle 4\sigma }機器學習筆記-模式識別的范圍內(nèi)

                            函數(shù)曲線的反曲點(inflection point)為離平均數(shù)一個標準差距離的位置

 2.方差(Variance)

Var(X) = σ2 = 1/n∑(xi-u)2

模式識別

  1. 基本概念

分類(classification)

    識別出樣本所屬的類別。根據(jù)識別前是否需要進行訓(xùn)練,可分為有監(jiān)督分類(supervised classification)何無監(jiān)督分類(unsupervised classification)。

    有監(jiān)督分類:根據(jù)已知訓(xùn)練區(qū)提供的樣本,通過計算選擇特征參數(shù),建立判別函數(shù)以對樣本進行的分類。

    無監(jiān)督分類:指人們事先對分類過程不施加任何的先驗知識,而僅憑數(shù)據(jù),即自然聚類的特性,進行“盲目”的分類;其分類的結(jié)果只是對不同類別達到了區(qū)分,但不能確定類別的屬性。

回歸(regression)

      統(tǒng)計學上分析數(shù)據(jù)的方法,目的在于了解連個或多個變數(shù)間是否相關(guān)、相關(guān)方向與強度,并建立數(shù)學模型以便觀察待定變數(shù)來預(yù)測研究者感興趣的變數(shù)。更具體的來說,回歸分析可以幫助人們了解在只有一個自變量變化時因變量的變化量。

非參數(shù)統(tǒng)計(nonparametric statistics)

    統(tǒng)計學的分支,適用于母群體分布情況未明、小樣本、母群體分布不為常態(tài)也不以轉(zhuǎn)換為常態(tài)。

惰性學習(Lazing Leaning) 也即 基于實例的學習(Instance-based Learning),機械學習(Rote Learning)。

    概率分類(Probabilistic classification), 基于概率分類,分類器給出一個最優(yōu)類別猜測結(jié)果,同時給出這個猜測的概率估計值。概率分類器機器學習筆記-模式識別, 給定一個機器學習筆記-模式識別(X是樣本集),賦予概率值到所有的機器學習筆記-模式識別(Y是分類標簽集),這些概率值的和使1。

    文氏圖(Venn diagram),不太嚴格意義下用一表示集合/類的一種草圖。尤其適合表示集合/類之間的“大致關(guān)系”。機器學習筆記-模式識別

    B.算法

  1. 最近鄰居法(KNN)

    一種用于分類和回歸的非參數(shù)統(tǒng)計方法。在這兩種情況下,輸入包含特征空間中的k個最接近的訓(xùn)練樣本。是一種基于實例的學習,或者是局部近似和將所有計算推遲到分類之后的惰性學習。衡量鄰居的權(quán)重非常有用。

    在K-NN分類中,輸出是一個分類族群。一個對象的分類是由其鄰居的“多數(shù)表決”確定的,k個最近鄰居中最常見的分類決定了賦予該對象的類別。若k=1,則該對象的類別直接由最近的一個節(jié)點賦予。

    在k-NN回歸中,輸出是該對象的屬性值,該值是其k個最近鄰居的值的平均值。

    這個算法的計算量相當大,耗時。 Ko和Seo提出了TCFP(text categorization feature projection)。所需時間是這個算法的1/50。

    長處:

        簡單有效

        不對數(shù)據(jù)的分布做假設(shè)

        訓(xùn)練階段快

    短處:

        不生成model, 在洞見feature之間關(guān)系上能力有限

        分類階段慢

        內(nèi)存需求大

        定類特征(Nominal feature)和丟失數(shù)據(jù)(missing data)需要進行附加的處理

    距離計算,可以用歐幾里得距離(Euclidean distance)

    在選擇k值時,我們要注意方差平衡(Bias-Variance Tradeoff)。大的k值可以減少噪聲數(shù)據(jù)的影響,但是可能導(dǎo)致我們忽視掉小而重要的模式。通常地K值可以取訓(xùn)練樣本數(shù)的平方根。最好是多嘗試幾個k值,找到相對合理的k值。如果訓(xùn)練樣本所具的代表性高,數(shù)量大,k的取值會變得不那么重要。

    我們要注意各個特征的取值范圍。大取值范圍的特征可以會主導(dǎo)距離值。

    特征值重新調(diào)解的方法有:

    極值歸一化(min-max normalization)

             Xnew = (X-min(X))/(max(X) - min(X))

    Z-分數(shù)標準化(Z-score standardization)

             Xnew = (X-u)/σ = (X-Mean(X))/StdDev(X)

    這個算法是lazy Learning 算法。 在整個過程中沒有抽象的過程。嚴格意義上lazing Learning沒有真  正的學習發(fā)生。

  2. 樸素貝葉斯(Naive Bayes)

    貝葉斯方法(Bayesian Method),基于已有的證據(jù)對事件的發(fā)生概率進行估計。

    獨立事件(Independent event)A,B同時發(fā)生的概率P(A∩B) = P(A)*P(B)。

    相依事件(Dependent event)時預(yù)測性建模(Predictive modeling)的基礎(chǔ)。我們可以用貝葉斯理論來描述相依事件的關(guān)系。

    P(A|B) = P(B|A)P(A)/P(B) = P(A∩B)/P(B)

    樸素貝葉斯算法是應(yīng)用貝葉斯方法的一種機器學習方法之一。

    長處:

       簡單,快速,非常高效

       很好地處理噪聲跟缺失數(shù)據(jù)

       只需要相對少的樣本進行訓(xùn)練,當然也很很好地工作在大量樣本數(shù)據(jù)的情況

       可以簡單地獲得估計概率

    短處:

       依賴于現(xiàn)實情況出錯率高的假設(shè) - 所有特征同等重要且獨立

       對大量數(shù)值型特征的數(shù)據(jù)集效果不理想

      預(yù)計分類比估計的概率更可靠

    樸素貝葉斯算法得名它對數(shù)據(jù)進行了一些"naive"的假設(shè)(見短處中的第一項)。例如,判斷垃圾郵件時,發(fā)件人信息比消息內(nèi)容更重要。雖然很多情況都不違背了一些假設(shè),但是這個算法還是表現(xiàn)不俗。

    在處理數(shù)值類的特征是我們要對數(shù)值進行分類,其中一個簡單的方法就是離散化(Discretize)。

        實現(xiàn):

            其中一種簡單實現(xiàn)就是采用詞集模型(set-of-words)。此模型只考慮此是否在文中出現(xiàn),不關(guān)注詞出線的次數(shù)。實現(xiàn)方法就是先定義詞集。然后標示文檔,判斷某個詞在文檔中是否出現(xiàn)。在文檔樣本里如果某詞在n個文檔中出現(xiàn),那該詞計為n,然后進行概率計算。

            如果用Wi代表在文檔中出現(xiàn)的詞i。用Ck代表第k個分類。那么我們分類的方法就是要判斷P(Ck)當k取哪個值時這個概率大,取到的大概率對應(yīng)的分類就是此文檔的分類。 那么P(Ck) = Σ P(Ck/Wi)。而P(Ck/Wi) = P(Wi/Ck) * P(Ck) / P(Wi) 。 我們來看 P(Ck/Wi) 通過計算特別是一些四舍五入后結(jié)果可能是0。這樣某些詞的的影響就被這樣計算掉了。 為了更能放映每個詞的作用有兩點可以考慮。第一點我們在算整個樣本時可以給每個詞都加上一個初始量。第二點,我們可以用ln()計算的結(jié)構(gòu)來進行概率比較, f(x) 跟 ln(f(x))在f(x) > 0 時有相同的斜率變化。另外,這連個函數(shù)的極值也是在相同的x點的位置。 這樣 ln(ΣP(Ck/Wi)*P(Ck)/P(Wi)) = ln(ΣP(Wi/Ck)) + ln(P(Ck)) - ln(P(Wi)) 。 如果算P(Ck)的話,不論計算那個類別 Σln(P(Wi)) 都是相同的值。所以可以省略掉ln(P(Wi))的計算。如是我們就剩下了  (lnΣP(Wi/Ck)) + ln(P(Ck))。在實際中可能每個類別所出現(xiàn)的概率更有影響力。所以最終我們只需計算 ΣP(Wi/Ck) + ln(P(Ck)) 來進行概率比較。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

分享題目:機器學習筆記-模式識別-創(chuàng)新互聯(lián)
本文來源:http://www.muchs.cn/article40/ddsheo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App開發(fā)、網(wǎng)站內(nèi)鏈、定制開發(fā)、標簽優(yōu)化、靜態(tài)網(wǎng)站、網(wǎng)頁設(shè)計公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站建設(shè)