距離和相似度度量

2021-12-13    分類: 網(wǎng)站建設(shè)

在數(shù)據(jù)分析和數(shù)據(jù)挖掘的過程中,我們經(jīng)常需要知道個體間差異的大小,進(jìn)而評價個體的相似性和類別。最常見的是數(shù)據(jù)分析中的相關(guān)分析,數(shù)據(jù)挖掘中的分類和聚類算法,如K最近鄰(KNN)和K均值(K-Means)。當(dāng)然衡量個體差異的方法有很多,最近查閱了相關(guān)的資料,這里整理羅列下。

為了方便下面的解釋和舉例,先設(shè)定我們要比較X個體和Y個體間的差異,它們都包含了N個維的特征,即X=(x1, x2, x3, … xn),Y=(y1, y2, y3, … yn)。下面來看看主要可以用哪些方法來衡量兩者的差異,主要分為距離度量和相似度度量。

距離度量

距離度量(Distance)用于衡量個體在空間上存在的距離,距離越遠(yuǎn)說明個體間的差異越大。

歐幾里得距離(Euclidean Distance)

歐氏距離是最常見的距離度量,衡量的是多維空間中各個點(diǎn)之間的絕對距離。公式如下:

因?yàn)橛嬎闶腔诟骶S度特征的絕對數(shù)值,所以歐氏度量需要保證各維度指標(biāo)在相同的刻度級別,比如對身高(cm)和體重(kg)兩個單位不同的指標(biāo)使用歐式距離可能使結(jié)果失效。

明可夫斯基距離(Minkowski Distance)

明氏距離是歐氏距離的推廣,是對多個距離度量公式的概括性的表述。公式如下:

這里的p值是一個變量,當(dāng)p=2的時候就得到了上面的歐氏距離。

曼哈頓距離(Manhattan Distance)

曼哈頓距離來源于城市區(qū)塊距離,是將多個維度上的距離進(jìn)行求和后的結(jié)果,即當(dāng)上面的明氏距離中p=1時得到的距離度量公式,如下:

切比雪夫距離(Chebyshev Distance)

切比雪夫距離起源于國際象棋中國王的走法,我們知道國際象棋國王每次只能往周圍的8格中走一步,那么如果要從棋盤中a格(x1, y1)走到B格(x2, y2)最少需要走幾步擴(kuò)展到多維空間,其實(shí)切比雪夫距離就是當(dāng)p趨向于無窮大時的明氏距離:

其實(shí)上面的曼哈頓距離、歐氏距離和切比雪夫距離都是明可夫斯基距離在特殊條件下的應(yīng)用。

馬哈拉諾比斯距離(Mahalanobis Distance)

既然歐幾里得距離無法忽略指標(biāo)度量的差異,所以在使用歐氏距離之前需要對底層指標(biāo)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化,而基于各指標(biāo)維度進(jìn)行標(biāo)準(zhǔn)化后再使用歐氏距離就衍生出來另外一個距離度量——馬哈拉諾比斯距離(Mahalanobis Distance),簡稱馬氏距離。

相似度度量

相似度度量(Similarity),即計算個體間的相似程度,與距離度量相反,相似度度量的值越小,說明個體間相似度越小,差異越大。

向量空間余弦相似度(Cosine Similarity)

余弦相似度用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小。相比距離度量,余弦相似度更加注重兩個向量在方向上的差異,而非距離或長度上。公式如下:

皮爾森相關(guān)系數(shù)(Pearson Correlation Coefficient)

即相關(guān)分析中的相關(guān)系數(shù)r,分別對X和Y基于自身總體標(biāo)準(zhǔn)化后計算空間向量的余弦夾角。公式如下:

Jaccard相似系數(shù)(Jaccard Coefficient)

Jaccard系數(shù)主要用于計算符號度量或布爾值度量的個體間的相似度,因?yàn)閭€體的特征屬性都是由符號度量或者布爾值標(biāo)識,因此無法衡量差異具體值的大小,只能獲得“是否相同”這個結(jié)果,所以Jaccard系數(shù)只關(guān)心個體間共同具有的特征是否一致這個問題。如果比較X與Y的Jaccard相似系數(shù),只比較xn和yn中相同的個數(shù),公式如下:

調(diào)整余弦相似度(adjusted Cosine Similarity)

雖然余弦相似度對個體間存在的偏見可以進(jìn)行一定的修正,但是因?yàn)橹荒芊直鎮(zhèn)€體在維之間的差異,沒法衡量每個維數(shù)值的差異,會導(dǎo)致這樣一個情況:比如用戶對內(nèi)容評分,5分制,X和Y兩個用戶對兩個內(nèi)容的評分分別為(1,2)和(4,5),使用余弦相似度得出的結(jié)果是0.98,兩者極為相似,但從評分上看X似乎不喜歡這2個內(nèi)容,而Y比較喜歡,余弦相似度對數(shù)值的不敏感導(dǎo)致了結(jié)果的誤差,需要修正這種不合理性,就出現(xiàn)了調(diào)整余弦相似度,即所有維度上的數(shù)值都減去一個均值,比如X和Y的評分均值都是3,那么調(diào)整后為(-2,-1)和(1,2),再用余弦相似度計算,得到-0.8,相似度為負(fù)值并且差異不小,但顯然更加符合現(xiàn)實(shí)。

歐氏距離與余弦相似度

歐氏距離是最常見的距離度量,而余弦相似度則是最常見的相似度度量,很多的距離度量和相似度度量都是基于這兩者的變形和衍生,所以下面重點(diǎn)比較下兩者在衡量個體差異時實(shí)現(xiàn)方式和應(yīng)用環(huán)境上的區(qū)別。

借助三維坐標(biāo)系來看下歐氏距離和余弦相似度的區(qū)別:

從圖上可以看出距離度量衡量的是空間各點(diǎn)間的絕對距離,跟各個點(diǎn)所在的位置坐標(biāo)(即個體特征維度的數(shù)值)直接相關(guān);而余弦相似度衡量的是空間向量的夾角,更加的是體現(xiàn)在方向上的差異,而不是位置。如果保持a點(diǎn)的位置不變,B點(diǎn)朝原方向遠(yuǎn)離坐標(biāo)軸原點(diǎn),那么這個時候余弦相似度cosθ是保持不變的,因?yàn)閵A角不變,而a、B兩點(diǎn)的距離顯然在發(fā)生改變,這就是歐氏距離和余弦相似度的不同之處。

根據(jù)歐氏距離和余弦相似度各自的計算方式和衡量特征,分別適用于不同的數(shù)據(jù)分析模型:歐氏距離能夠體現(xiàn)個體數(shù)值特征的絕對差異,所以更多的用于需要從維度的數(shù)值大小中體現(xiàn)差異的分析,如使用用戶行為指標(biāo)分析用戶價值的相似度或差異;而余弦相似度更多的是從方向上區(qū)分差異,而對絕對的數(shù)值不敏感,更多的用于使用用戶對內(nèi)容評分來區(qū)分用戶興趣的相似度和差異,同時修正了用戶間可能存在的度量標(biāo)準(zhǔn)不統(tǒng)一的問題(因?yàn)橛嘞蚁嗨贫葘^對數(shù)值不敏感)。

上面都是對距離度量和相似度度量的一些整理和匯總,在現(xiàn)實(shí)的使用中選擇合適的距離度量或相似度度量可以完成很多的數(shù)據(jù)分析和數(shù)據(jù)挖掘的建模,后續(xù)會有相關(guān)的介紹。

網(wǎng)頁標(biāo)題:距離和相似度度量
當(dāng)前URL:http://www.muchs.cn/news32/140132.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站維護(hù)、做網(wǎng)站、品牌網(wǎng)站制作、品牌網(wǎng)站建設(shè)電子商務(wù)、外貿(mào)建站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站托管運(yùn)營