R語(yǔ)言數(shù)據(jù)挖掘?qū)崙?zhàn)系列(4)

R語(yǔ)言數(shù)據(jù)挖掘?qū)崙?zhàn)系列(4)——數(shù)據(jù)預(yù)處理

為庫(kù)車(chē)等地區(qū)用戶提供了全套網(wǎng)頁(yè)設(shè)計(jì)制作服務(wù),及庫(kù)車(chē)網(wǎng)站建設(shè)行業(yè)解決方案。主營(yíng)業(yè)務(wù)為成都做網(wǎng)站、網(wǎng)站設(shè)計(jì)、庫(kù)車(chē)網(wǎng)站設(shè)計(jì),以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠(chéng)的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會(huì)得到認(rèn)可,從而選擇與我們長(zhǎng)期合作。這樣,我們也可以走得更遠(yuǎn)!

       數(shù)據(jù)預(yù)處理一方面是要提高數(shù)據(jù)的質(zhì)量,另一方面是要讓數(shù)據(jù)更好地適應(yīng)特定的挖掘技術(shù)或工具。數(shù)據(jù)預(yù)處理的主要內(nèi)容包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。

一、數(shù)據(jù)清洗

1.缺失值處理

       一般來(lái)說(shuō),缺失值的處理包括兩個(gè)步驟,即缺失數(shù)據(jù)的識(shí)別和缺失值處理。在R語(yǔ)言中缺失值通常以NA表示,可以使用函數(shù)is.na()判斷缺失值是否存在,另外函數(shù)complete.cases()可識(shí)別樣本數(shù)據(jù)是否完整從而判斷缺失情況。在對(duì)是否存在缺失值進(jìn)行判斷之后需要進(jìn)行缺失值處理,常用的方法有刪除法、替換法、插補(bǔ)法等。

(1)刪除法

       根據(jù)數(shù)據(jù)處理的不同角度可分為刪除觀測(cè)樣本、刪除變量?jī)煞N。刪除觀測(cè)樣本又稱為行刪除法,在R中可通過(guò)na.omit()函數(shù)移除所有含有缺失數(shù)據(jù)的行,這屬于以減少樣本量來(lái)?yè)Q取信息完整性的方法,適用于缺失值所占比例較小的情況;刪除變量適用于變量有較大缺失且對(duì)研究目標(biāo)影響不大的情況,意味著要?jiǎng)h除整個(gè)變量,在R中可通過(guò)data[,-p]來(lái)實(shí)現(xiàn),其中data表示目標(biāo)數(shù)據(jù)集,p表示缺失變量所在的列。

(2)替換法

       變量按屬性可分為數(shù)值型和非數(shù)值型,二者的處理辦法不同:如果缺失值所在變量為數(shù)值型,一般用該變量在其他所有對(duì)象的取值的均值來(lái)替換變量的缺失值;如果為非數(shù)值型變量,則使用該變量其他全部有效觀測(cè)值的中位數(shù)或者眾數(shù)進(jìn)行替換。

(3)插補(bǔ)法

       在面對(duì)缺失值問(wèn)題,常用的插補(bǔ)法有回歸插補(bǔ)、多重插補(bǔ)等?;貧w插補(bǔ)法利用回歸模型,將需要插值補(bǔ)缺的變量作為因變量,其他相關(guān)變量作為自變量,通過(guò)回歸函數(shù)lm()預(yù)測(cè)出因變量的值來(lái)對(duì)缺失變量進(jìn)行補(bǔ)缺;多重插補(bǔ)法的原理是從一個(gè)包含缺失值的數(shù)據(jù)集中生成一組完整的數(shù)據(jù),如此進(jìn)行多次,從而產(chǎn)生缺失值的一個(gè)隨機(jī)樣本,R中的mice函數(shù)包可以用來(lái)進(jìn)行多重插補(bǔ)。

2.異常值處理

       在異常值處理之前需要對(duì)異常值進(jìn)行識(shí)別,一般多采用單變量散點(diǎn)圖或是箱型圖來(lái)達(dá)到目的。在R中,使用函數(shù)dotchart()、boxplot()實(shí)現(xiàn)繪制單變量散點(diǎn)圖與箱型圖。

表4-1 異常值處理常用方法

異常值處理方法方法描述
刪除含有異常值的記錄直接將含有異常值的記錄刪除
視為缺失值將異常值視為缺失值,利用缺失值處理的方法進(jìn)行處理
平均值修正可用前后兩個(gè)觀測(cè)值的平均值修正該異常值
不處理直接在具有異常值的數(shù)據(jù)集上進(jìn)行挖掘建模

       很多情況下,要先分析異常值出現(xiàn)的可能原因,再判斷異常值是否應(yīng)該舍棄,如果是正確的數(shù)據(jù),可以直接在具有異常值的數(shù)據(jù)集上進(jìn)行挖掘建模。

二、數(shù)據(jù)集成

       數(shù)據(jù)集成就是將多個(gè)數(shù)據(jù)源合并存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中的過(guò)程。

在R中,數(shù)據(jù)集成是指將存儲(chǔ)在兩個(gè)數(shù)據(jù)框中的數(shù)據(jù)以關(guān)鍵字為依據(jù),以行為單位做列向合并,可通過(guò)函數(shù)merge()實(shí)現(xiàn),基本形式為merge(數(shù)據(jù)框1,數(shù)據(jù)框2,by='關(guān)鍵字'),合并后的新數(shù)據(jù)自動(dòng)按關(guān)鍵字取值的大小升序排列。

  1. 實(shí)體識(shí)別

    實(shí)體識(shí)別是從不同數(shù)據(jù)源識(shí)別出現(xiàn)實(shí)世界的實(shí)體,任務(wù)是統(tǒng)一不同數(shù)據(jù)源的矛盾之處,如同名異義、異名同義、單位不統(tǒng)一

  2. 冗余屬性識(shí)別

    數(shù)據(jù)集成往往造成數(shù)據(jù)冗余,如同一屬性多次出現(xiàn)、同一屬性命名不一致,導(dǎo)致重復(fù)。

有些冗余屬性可以用相關(guān)分析檢測(cè)。給定兩個(gè)數(shù)值型的屬性A和B,根據(jù)其屬性值,用相關(guān)系數(shù)度量一個(gè)屬性在多大程度上蘊(yùn)含另一個(gè)屬性。

三、數(shù)據(jù)變換

數(shù)據(jù)變換主要是對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,連續(xù)變量的離散化以及變量屬性的構(gòu)造,將數(shù)據(jù)轉(zhuǎn)換成“適當(dāng)?shù)摹毙问?,以滿足挖掘任務(wù)及算法的需要。

  1. 簡(jiǎn)單函數(shù)變換

    簡(jiǎn)單函數(shù)變換就是對(duì)原始數(shù)據(jù)進(jìn)行某些數(shù)學(xué)函數(shù)變換,如平方、開(kāi)方、取對(duì)數(shù)、差分運(yùn)算等。簡(jiǎn)單的函數(shù)變換常用來(lái)將不具有正態(tài)分布的數(shù)據(jù)變換成具有正態(tài)分布的數(shù)據(jù)。

  2. 規(guī)范化

    為了消除指標(biāo)之間的量綱和取值范圍差異的影響,需要進(jìn)行標(biāo)準(zhǔn)化處理,將數(shù)據(jù)按照比例進(jìn)行縮放,使之落入一個(gè)特定的區(qū)域,便于進(jìn)行綜合分析。

    數(shù)據(jù)規(guī)范化對(duì)于基于距離的挖掘算法尤為重要。

    (1)最小-最大規(guī)范化:也稱為離差標(biāo)準(zhǔn)化,是對(duì)原始數(shù)據(jù)的線性變換,將數(shù)值映射到[0,1]。這種方法的缺點(diǎn)是若數(shù)據(jù)集中且某個(gè)數(shù)值很大,則規(guī)范化后各值會(huì)接近于0,并且將會(huì)相差不大。若將來(lái)遇到超過(guò)目前屬性[min,max]取值范圍時(shí),會(huì)引起系統(tǒng)出錯(cuò),需要重新確定min和max。

    (2)零-均值規(guī)范化:也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,經(jīng)過(guò)處理的數(shù)據(jù)的均值為0,標(biāo)準(zhǔn)差為1。這種方法是當(dāng)前用得最多的數(shù)據(jù)的標(biāo)準(zhǔn)化方法,但是均值和標(biāo)準(zhǔn)差受離群點(diǎn)的影響較大,因此通常需要進(jìn)行修改。首先用中位數(shù)M取代均值,其次用絕對(duì)標(biāo)準(zhǔn)差取代標(biāo)準(zhǔn)差。

    (3)小數(shù)定標(biāo)規(guī)范化:通過(guò)移動(dòng)屬性值的小數(shù)位數(shù),將屬性值映射到[-1,1],移動(dòng)的小數(shù)位數(shù)取決于屬性值絕對(duì)值的最大值。

  3. 連續(xù)屬性離散化

    (1)離散化的過(guò)程

    連續(xù)屬性的離散化就是在數(shù)據(jù)的取值范圍內(nèi)設(shè)定若干個(gè)離散的劃分點(diǎn),將取值范圍劃分為一些離散化的區(qū)間,最后用不同的符號(hào)或整數(shù)值代表落在每個(gè)子區(qū)間中的數(shù)據(jù)值。所以,離散化涉及兩個(gè)子任務(wù):確定分類(lèi)數(shù)以及如何將連續(xù)屬性值映射到這些分類(lèi)值。

    (2)常用的離散化方法

    常用的離散化方法有等寬法、等頻法和(一維)聚類(lèi)。

    等寬法:將屬性的值域分成具有相同寬度的區(qū)間、區(qū)間的個(gè)數(shù)由數(shù)據(jù)本身的特點(diǎn)決定,或者由用戶指定,類(lèi)似于制作頻率分布表。

    等頻法:將相同數(shù)量的記錄放進(jìn)每個(gè)區(qū)間。缺點(diǎn)是對(duì)離群點(diǎn)比較敏感,傾向于不均勻地把屬性值分布到各個(gè)區(qū)間。

    (一維)聚類(lèi):包括兩個(gè)步驟,首先將連續(xù)屬性的值用聚類(lèi)算法進(jìn)行聚類(lèi),然后再將聚類(lèi)得到的簇進(jìn)行處理,合并到一個(gè)簇的連續(xù)屬性值并做同一標(biāo)記。聚類(lèi)分析的離散化方法也需要用戶指定簇的個(gè)數(shù),從而決定產(chǎn)生的區(qū)間數(shù)。

  4. 屬性構(gòu)造

    為了便于提取更有用的信息,挖掘更深層次的模式,提高挖掘結(jié)果的精度,需要利用已有的屬性集構(gòu)造出新的屬性,并加入到現(xiàn)有的屬性集合中。

  5. 小波變換

    小波變換是一種新型的數(shù)據(jù)分析工具,具有多分辨率的特點(diǎn),在時(shí)域和頻域都具有表征信號(hào)局部特征的能力,通過(guò)伸縮和平移等運(yùn)算過(guò)程對(duì)信號(hào)進(jìn)行多尺度聚焦分析,提供了一種非平穩(wěn)信號(hào)的時(shí)頻分析手段,可以由粗到細(xì)地逐步觀察信號(hào),從中提取有用信息。

    能夠刻畫(huà)某個(gè)問(wèn)題的特征量往往是隱含在一個(gè)信號(hào)中的某個(gè)或者某些分量中,小波變換可以把非平穩(wěn)信號(hào)分解為表達(dá)不同層次、不同頻帶信息的數(shù)據(jù)序列,即小波系數(shù)。選取適當(dāng)?shù)男〔ㄏ禂?shù),即完成了信號(hào)的特征提取。

    (1)基于小波變換的特征提取方法

    基于小波變換的特征提取方法有:基于小波變換的多尺度空間能量分布特征提取、基于小波變換的多尺度空間的模極大值特征提取、基于小波包變換的特征提取、基于適應(yīng)性小波神經(jīng)網(wǎng)絡(luò)的特征提取。

    表4-2 基于小波變換的特征提取方法

    基于小波變換的特征提取方法方法描述
    基于小波變換的多尺度空間能量分布特征提取方法各尺度空間內(nèi)的平滑信號(hào)和細(xì)節(jié)信號(hào)能提供原始信號(hào)的時(shí)頻局域信息,特別是能提供不同頻段上信號(hào)的構(gòu)成信息。把不同分解尺度上信號(hào)的能量求解出來(lái),就可以將這些能量尺度順序排列,形成特征向量供識(shí)別用
    基于小波變換的多尺度空間的模極大值特征提取方法利用小波變換的信號(hào)局域化分析能力,求解小波變換的模極大值特征來(lái)檢測(cè)信號(hào)的局域奇異性,將小波變換模極大值的尺度參數(shù)s、平移參數(shù)t及其幅值作為目標(biāo)的特征量
    基于小波包變換的特征提取方法利用小波分解,可將時(shí)域隨機(jī)信號(hào)序列映射為尺度域各子空間內(nèi)的隨機(jī)系統(tǒng)序列,按小波包分解得到的最佳子空間內(nèi)隨機(jī)系數(shù)序列的不確定性程度最低,將最佳子空間的熵值及最佳子空間在完整二叉樹(shù)中的位置參數(shù)作為特征量,可以用于目標(biāo)識(shí)別
    基于適應(yīng)性小波神經(jīng)網(wǎng)絡(luò)的特征提取方法基于適應(yīng)性小波神經(jīng)網(wǎng)絡(luò)的特征提取方法可以把信號(hào)通過(guò)分析小波擬合表示,進(jìn)行特征提取

    (2)小波基函數(shù)

    小波基函數(shù)是一種具有局部支集的函數(shù),并且平均值為0,小波奇函數(shù)滿足Ψ(0)=∫ψ(t)dt=0。常用的小波基有Haar小波基、db系列小波基等。

    (3)小波變換

    (4)基于小波變換的多尺度空間能量分布特征提取方法

    應(yīng)用小波分析技術(shù)可以把信號(hào)在個(gè)頻率波段中的特征提取出來(lái),基于小波變換的多尺度空間能量分布特征提取方法是對(duì)信號(hào)進(jìn)行頻帶分析,再分別以計(jì)算所得的各個(gè)頻帶的能量作為特征向量。

四、數(shù)據(jù)規(guī)約

       數(shù)據(jù)規(guī)約可以產(chǎn)生更小的但保持原數(shù)據(jù)完整性的新數(shù)據(jù)集。數(shù)據(jù)規(guī)約的意義在于:降低無(wú)效、錯(cuò)誤數(shù)據(jù)對(duì)建模的影響,提高建模的準(zhǔn)確性;少量且具有代表性的數(shù)據(jù)將大幅縮減數(shù)據(jù)挖掘所需的時(shí)間;降低儲(chǔ)存數(shù)據(jù)的成本。

  1. 屬性規(guī)約

    屬性規(guī)約通過(guò)屬性合并來(lái)創(chuàng)建新屬性維數(shù),或者直接通過(guò)刪除不相關(guān)的屬性(維)來(lái)減少數(shù)據(jù)維數(shù),從而提高數(shù)據(jù)挖掘的效率、降低計(jì)算成本。屬性規(guī)約的目標(biāo)是尋找出最小的屬性子集并確保新數(shù)據(jù)子集的概率分布盡可能地接近原來(lái)數(shù)據(jù)集的概率分布。屬性規(guī)約的常用方法有:

    合并屬性:將一些舊屬性合為新屬性;

    逐步向前選擇:從一個(gè)空屬性集開(kāi)始,每次從原來(lái)屬性集合中選擇一個(gè)當(dāng)前最優(yōu)的屬性添加到當(dāng)前屬性子集中。直到無(wú)法選擇出最優(yōu)屬性或滿足一定閾值約束為止;

    逐步向后刪除:從一個(gè)全屬性集開(kāi)始,每次從當(dāng)前屬性子集中選擇一個(gè)當(dāng)前最差的屬性并將其從當(dāng)前屬性子集中消去。直到無(wú)法選擇出最差屬性為止或滿足一定閾值約束為止;

    決策樹(shù)歸納:利用決策樹(shù)的歸納方法對(duì)初始數(shù)據(jù)進(jìn)行分類(lèi)歸納學(xué)習(xí),獲得一個(gè)初始決策樹(shù),所有沒(méi)有出現(xiàn)在這個(gè)決策樹(shù)上的屬性均可認(rèn)為是無(wú)關(guān)屬性,因此將這些屬性從初始集合中刪除,就可以獲得一個(gè)較優(yōu)的屬性子集;

    主成分分析:用較少的變量去解釋原始數(shù)據(jù)中的大部分變量,即將許多相關(guān)性很高的變量轉(zhuǎn)化成彼此相互獨(dú)立或不相關(guān)的變量。

  2. 數(shù)值規(guī)約

    數(shù)值規(guī)約通過(guò)選擇替代的、較小的數(shù)據(jù)來(lái)減少數(shù)據(jù)量,包括有參數(shù)方法和無(wú)參數(shù)方法兩類(lèi)。有參數(shù)方法是使用一個(gè)模型來(lái)評(píng)估數(shù)據(jù),只需存放參數(shù),而不需要存放實(shí)際數(shù)據(jù),如回歸(線性回歸和多元回歸)和對(duì)數(shù)線性模型(近似離散屬性集中的多維概率分布)。無(wú)參數(shù)方法需要存放實(shí)際數(shù)據(jù),如直方圖、聚類(lèi)、抽樣。

    (1)直方圖

    屬性A的直方圖將A的數(shù)據(jù)分布劃分為不相交的子集或桶。如果每個(gè)桶只代表單個(gè)屬性值/頻率對(duì),則該桶成為單桶。通常,桶表示給定屬性的一個(gè)連續(xù)區(qū)間。R中用函數(shù)hist()繪制直方圖,用以說(shuō)明變量取值的分布情況。

    (2)聚類(lèi)

    聚類(lèi)技術(shù)將數(shù)據(jù)元祖(即記錄,數(shù)據(jù)表中的一行)視為對(duì)象。它將對(duì)象劃分為簇,使一個(gè)簇中的對(duì)象相互“相似”,而與其他簇中的對(duì)象“相異”。在數(shù)據(jù)規(guī)約中,用數(shù)據(jù)的簇替換實(shí)際數(shù)據(jù)。該技術(shù)的有效性依賴于簇的定義是否符合數(shù)據(jù)的分布性質(zhì)。R中常用的聚類(lèi)函數(shù)有hclust()、kmeans(),前者在使用系統(tǒng)聚類(lèi)法時(shí)使用,后者為快速聚類(lèi)的函數(shù)。

    (3)抽樣

    抽樣也是一種數(shù)據(jù)規(guī)約技術(shù),它用比原始數(shù)據(jù)小得多的隨機(jī)樣本(子集)表示原始數(shù)據(jù)集。抽樣類(lèi)型有:有放回簡(jiǎn)單隨機(jī)抽樣、無(wú)放回簡(jiǎn)單隨機(jī)抽樣、聚類(lèi)抽樣、分層抽樣等。用于數(shù)據(jù)規(guī)約時(shí),抽樣最常用來(lái)估計(jì)聚集查詢的結(jié)果。在指定的誤差范圍內(nèi),可以確定(使用中心極限定理)估計(jì)一個(gè)給定的函數(shù)所需的樣本大小。通常樣本的大小s相對(duì)于N非常小。

    (4)參數(shù)回歸

    簡(jiǎn)單線性模型和對(duì)數(shù)線性模型可以用來(lái)近似給定的數(shù)據(jù)。(簡(jiǎn)單)線性模型對(duì)數(shù)據(jù)建模,使之?dāng)M合一條直線,在R中使用函數(shù)lm()即可實(shí)現(xiàn)。

    對(duì)數(shù)線性模型:用來(lái)描述期望頻數(shù)與協(xié)變量(指與因變量有線性相關(guān)并且探討自變量與因變量關(guān)系時(shí)通過(guò)統(tǒng)計(jì)技術(shù)加以控制的變量)之間的關(guān)系。對(duì)數(shù)線性模型一般用來(lái)近似離散的多維概率分布。

五、R語(yǔ)言主要數(shù)據(jù)預(yù)處理函數(shù)

表4-3 R主要數(shù)據(jù)預(yù)處理函數(shù)

函數(shù)名函數(shù)功能所屬函數(shù)包
lm()利用因變量與自變量建立線性回歸模型通用函數(shù)包
predict()依據(jù)已有模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)通用函數(shù)包
mice()對(duì)缺失數(shù)據(jù)進(jìn)行多重插補(bǔ)mice函數(shù)包
which()返回服從條件的觀測(cè)所在位置通用函數(shù)包
scale()對(duì)數(shù)據(jù)進(jìn)行零-均值規(guī)范化通用函數(shù)包
rnorm()隨機(jī)產(chǎn)生服從正態(tài)分布的一列數(shù)通用函數(shù)包
ceiling()向上舍入接近的整數(shù)通用函數(shù)包
kmeans()對(duì)數(shù)據(jù)進(jìn)行快速聚類(lèi)分析通用函數(shù)包
dwt()對(duì)數(shù)據(jù)進(jìn)行小波分解waveslim函數(shù)包
princomp()對(duì)指標(biāo)變量矩陣進(jìn)行主成分分析通用函數(shù)包

文章題目:R語(yǔ)言數(shù)據(jù)挖掘?qū)崙?zhàn)系列(4)
當(dāng)前鏈接:http://muchs.cn/article26/ieppjg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供電子商務(wù)、全網(wǎng)營(yíng)銷(xiāo)推廣、網(wǎng)站建設(shè)、做網(wǎng)站、營(yíng)銷(xiāo)型網(wǎng)站建設(shè)、Google

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

營(yíng)銷(xiāo)型網(wǎng)站建設(shè)