數(shù)據(jù)挖掘中的KNN-創(chuàng)新互聯(lián)

K最近鄰算法是分類問題中經(jīng)常使用的一種非參數(shù)方法。算法的思路清晰簡潔:對于待分類的樣本,找出與其最近的K個樣本(即訓練樣本中的K個)。然后對這K個樣本進行投票,待分樣本與多數(shù)樣本的類別一致。

成都創(chuàng)新互聯(lián)公司專注于新北企業(yè)網(wǎng)站建設,成都響應式網(wǎng)站建設,商城網(wǎng)站制作。新北網(wǎng)站建設公司,為新北等地區(qū)提供建站服務。全流程定制制作,專業(yè)設計,全程項目跟蹤,成都創(chuàng)新互聯(lián)公司專業(yè)和態(tài)度為您提供的服務

 在該算法中有兩個最主要的問題:1、最近怎么評價?2、到底K等于多少?

 對于第一個問題,我們分三種情況討論:

 A.標稱屬性:如果樣本的屬性值相同,則兩個樣本的距離為0,否則為1。舉例:有兩個樣本,其中有個屬性是性別,如果兩個樣本的性別都是男,則距離為0,若一個為男一個為女,則距離為1。

 B.序數(shù)屬性:如考慮學生的成績評定有如下的等級{poor,fair,ok,good,perfect}。我們可以這樣處理,將每個等級映射到從0開始的相繼整數(shù){poor=0,fair=1,ok=2,good=3,perfect=4}。如何兩個學生的成績分別是good和fair,我們可以定義距離distance=3-1=2。

 C.連續(xù)屬性:可以用歐氏距離來衡量√∑(〔x-y〕(x-y))。如兩個點(1,2)和(3,4)之間的距離distance = √((1-3)*(1-3) + (2-4)*(2-4)) = √8 = 2√2 .

 假如一個樣本中包含以上三種屬性,我們需要對各屬性做歸一化之后再求距離?;蛘呤沁x擇其他算法如決策樹、樸素貝葉斯等。

 對于第二個問題,我覺得比較好的辦法就是試探。設立一個確認樣本集,然后試探看看選定哪個K值的效果比較好。當然對于大規(guī)模數(shù)據(jù)這種方法可能不太行,這時工程師的經(jīng)驗和判斷就顯得尤為重要了。很多資料建議K值在3-10之間,經(jīng)驗顯示這樣的K值能較好的控制噪聲的干擾。

 K最近鄰算法的特點:a.不需要建立模型(也稱消極學習方法),但是計算開銷很大,每次判斷一個樣本都要計算該樣本到所有訓練樣本的距離。

 b.可以生成任意形狀的邊界,而像決策樹算法只能生成線性的邊界。

 c.適當?shù)木嚯x度量準則非常重要。

另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。

網(wǎng)站欄目:數(shù)據(jù)挖掘中的KNN-創(chuàng)新互聯(lián)
瀏覽地址:http://muchs.cn/article0/dhejoo.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供外貿(mào)建站、面包屑導航、品牌網(wǎng)站建設靜態(tài)網(wǎng)站、網(wǎng)站導航、自適應網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

營銷型網(wǎng)站建設