Mahout中怎么實(shí)現(xiàn)相似度計(jì)算

這篇文章給大家介紹Mahout中怎么實(shí)現(xiàn)相似度計(jì)算,內(nèi)容非常詳細(xì),感興趣的小伙伴們可以參考借鑒,希望對(duì)大家能有所幫助。

創(chuàng)新互聯(lián)專注于婺源網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗(yàn)。 熱誠為您提供婺源營銷型網(wǎng)站建設(shè),婺源網(wǎng)站制作、婺源網(wǎng)頁設(shè)計(jì)、婺源網(wǎng)站官網(wǎng)定制、小程序制作服務(wù),打造婺源網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供婺源網(wǎng)站排名全網(wǎng)營銷落地服務(wù)。

     在現(xiàn)實(shí)中廣泛使用的推薦系統(tǒng)一般都是基于協(xié)同過濾算法的,這類算法通常都需要計(jì)算用戶與用戶或者項(xiàng)目與項(xiàng)目之間的相似度,對(duì)于數(shù)據(jù)量以及數(shù)據(jù)類型不同的數(shù)據(jù)源,需要不同的相似度計(jì)算方法來提高推薦性能,在mahout提供了大量用于計(jì)算相似度的組件,這些組件分別實(shí)現(xiàn)了不同的相似度計(jì)算方法。下圖用于實(shí)現(xiàn)相似度計(jì)算的組件之間的關(guān)系:

Mahout中怎么實(shí)現(xiàn)相似度計(jì)算

圖1、項(xiàng)目相似度計(jì)算組件

Mahout中怎么實(shí)現(xiàn)相似度計(jì)算

圖2、用戶相似度計(jì)算組件

下面就幾個(gè)重點(diǎn)相似度計(jì)算方法做介紹:

皮爾森相關(guān)度

類名:PearsonCorrelationSimilarity

原理:用來反映兩個(gè)變量線性相關(guān)程度的統(tǒng)計(jì)量

范圍:[-1,1],絕對(duì)值越大,說明相關(guān)性越強(qiáng),負(fù)相關(guān)對(duì)于推薦的意義小。

說明:1、 不考慮重疊的數(shù)量;2、 如果只有一項(xiàng)重疊,無法計(jì)算相似性(計(jì)算過程被除數(shù)有n-1);3、 如果重疊的值都相等,也無法計(jì)算相似性(標(biāo)準(zhǔn)差為0,做除數(shù))。

    該相似度并不是最好的選擇,也不是最壞的選擇,只是因?yàn)槠淙菀桌斫?,在早期研究中?jīng)常被提起。使用Pearson線性相關(guān)系數(shù)必須假設(shè)數(shù)據(jù)是成對(duì)地從正態(tài)分布中取得的,并且數(shù)據(jù)至少在邏輯范疇內(nèi)必須是等間距的數(shù)據(jù)。Mahout中,為皮爾森相關(guān)計(jì)算提供了一個(gè)擴(kuò)展,通過增加一個(gè)枚舉類型(Weighting)的參數(shù)來使得重疊數(shù)也成為計(jì)算相似度的影響因子。

歐式距離相似度

類名:EuclideanDistanceSimilarity

原理:利用歐式距離d定義的相似度s,s=1 / (1+d)。

范圍:[0,1],值越大,說明d越小,也就是距離越近,則相似度越大。

說明:同皮爾森相似度一樣,該相似度也沒有考慮重疊數(shù)對(duì)結(jié)果的影響,同樣地,Mahout通過增加一個(gè)枚舉類型(Weighting)的參數(shù)來使得重疊數(shù)也成為計(jì)算相似度的影響因子。

余弦相似度

類名:PearsonCorrelationSimilarity和UncenteredCosineSimilarity

原理:多維空間兩點(diǎn)與所設(shè)定的點(diǎn)形成夾角的余弦值。

范圍:[-1,1],值越大,說明夾角越大,兩點(diǎn)相距就越遠(yuǎn),相似度就越小。

說明:在數(shù)學(xué)表達(dá)中,如果對(duì)兩個(gè)項(xiàng)的屬性進(jìn)行了數(shù)據(jù)中心化,計(jì)算出來的余弦相似度和皮爾森相似度是一樣的,在mahout中,實(shí)現(xiàn)了數(shù)據(jù)中心化的過程,所以皮爾森相似度值也是數(shù)據(jù)中心化后的余弦相似度。另外在新版本中,Mahout提供了UncenteredCosineSimilarity類作為計(jì)算非中心化數(shù)據(jù)的余弦相似度。

Spearman秩相關(guān)系數(shù)

類名:SpearmanCorrelationSimilarity

原理:Spearman秩相關(guān)系數(shù)通常被認(rèn)為是排列后的變量之間的Pearson線性相關(guān)系數(shù)。

范圍:{-1.0,1.0},當(dāng)一致時(shí)為1.0,不一致時(shí)為-1.0。

說明:計(jì)算非常慢,有大量排序。針對(duì)推薦系統(tǒng)中的數(shù)據(jù)集來講,用Spearman秩相關(guān)系數(shù)作為相似度量是不合適的。

曼哈頓距離

類名:CityBlockSimilarity

原理:曼哈頓距離的實(shí)現(xiàn),同歐式距離相似,都是用于多維數(shù)據(jù)空間距離的測度

范圍:[0,1],同歐式距離一致,值越小,說明距離值越大,相似度越大。

說明:比歐式距離計(jì)算量少,性能相對(duì)高。

Tanimoto系數(shù)

類名:TanimotoCoefficientSimilarity

原理:又名廣義Jaccard系數(shù),是對(duì)Jaccard系數(shù)的擴(kuò)展,等式為

范圍:[0,1],完全重疊時(shí)為1,無重疊項(xiàng)時(shí)為0,越接近1說明越相似。

說明:處理無打分的偏好數(shù)據(jù)。

對(duì)數(shù)似然相似度

類名:LogLikelihoodSimilarity

原理:重疊的個(gè)數(shù),不重疊的個(gè)數(shù),都沒有的個(gè)數(shù)

范圍:具體可去百度文庫中查找論文《Accurate Methods for the Statistics of Surprise and Coincidence》

說明:處理無打分的偏好數(shù)據(jù),比Tanimoto系數(shù)的計(jì)算方法更為智能。

關(guān)于Mahout中怎么實(shí)現(xiàn)相似度計(jì)算就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到。

文章題目:Mahout中怎么實(shí)現(xiàn)相似度計(jì)算
轉(zhuǎn)載注明:http://muchs.cn/article4/iiocoe.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供Google建站公司、自適應(yīng)網(wǎng)站面包屑導(dǎo)航、網(wǎng)站導(dǎo)航做網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)