數(shù)據(jù)挖掘的意思是什么

這期內(nèi)容當(dāng)中小編將會給大家?guī)碛嘘P(guān)數(shù)據(jù)挖掘的意思是什么,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

站在用戶的角度思考問題,與客戶深入溝通,找到惠民網(wǎng)站設(shè)計與惠民網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗,讓設(shè)計與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個性化、用戶體驗好的作品,建站類型包括:網(wǎng)站制作、做網(wǎng)站、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、空間域名、網(wǎng)頁空間、企業(yè)郵箱。業(yè)務(wù)覆蓋惠民地區(qū)。

數(shù)據(jù)挖掘(Data Mining)就是從大量的數(shù)據(jù)中,提取隱藏在其中的,事先不知道的、但潛在有用的信息的過程。數(shù)據(jù)挖掘的目標(biāo)是建立一個決策模型,根據(jù)過去的行動數(shù)據(jù)來預(yù)測未來的行為。

數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。

數(shù)據(jù)挖掘通常與計算機(jī)科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。

數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識發(fā)現(xiàn)(knowledge discovery in database, KDD)不可缺少的一部分,而KDD是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個過程,該過程包括一系列轉(zhuǎn)換步驟, 從數(shù)據(jù)的預(yù)處理到數(shù)據(jù)挖掘結(jié)果的后處理。

數(shù)據(jù)挖掘的意思是什么

數(shù)據(jù)挖掘的起源

來自不同學(xué)科的研究者匯集到一起,開始著手開發(fā)可以處理不同數(shù)據(jù) 類型的更有效的、可伸縮的工具。這些工作都是建立在研究者先前使用的方法學(xué)和算法之上,而在數(shù)據(jù)挖掘領(lǐng)域達(dá)到高潮。

特別地,數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想:(1)來自統(tǒng)計學(xué)的抽樣、估計和假設(shè)檢驗;(2)人工智能、模式識別和機(jī)器學(xué)習(xí)的搜索算法建模技術(shù)和學(xué)習(xí)理論。

數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進(jìn)化計算、信息論、信號處理、可視化和信息檢索。

一些其他領(lǐng)域也起到重要的支撐作用。數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術(shù)也能幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時更是至關(guān)重要。

數(shù)據(jù)挖掘的意思是什么

KDD(Knowledge Discovery from Database)

  • 數(shù)據(jù)清理

    消除噪聲和不一致的數(shù)據(jù);

  • 數(shù)據(jù)集成

    多種數(shù)據(jù)源可以組合在一起;

  • 數(shù)據(jù)選擇

    從數(shù)據(jù)庫中提取與分析任務(wù)相關(guān)的數(shù)據(jù);

  • 數(shù)據(jù)變換

    通過匯總或聚集操作,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式;

  • 數(shù)據(jù)挖掘

    基本步驟,使用智能方法提取數(shù)據(jù)模式;

  • 模式評估

    根據(jù)某種興趣度,識別代表知識的真正有趣的模式;

  • 知識表示

    使用可視化和知識表示技術(shù),向用戶提供挖掘的知識。

數(shù)據(jù)挖掘的意思是什么

數(shù)據(jù)挖掘方法論

  • 業(yè)務(wù)理解(business understanding)

    從商業(yè)角度理解項目的目標(biāo)和要求,接著把這些理解知識通過理論分析轉(zhuǎn)化為數(shù)據(jù)挖掘可操作的問題,制定實現(xiàn)目標(biāo)的初步規(guī)劃;

  • 數(shù)據(jù)理解(data understanding)

    數(shù)據(jù)理解階段開始于原始數(shù)據(jù)的收集,然后是熟悉數(shù)據(jù)、甄別數(shù)據(jù)質(zhì)量問題、探索對數(shù)據(jù)的初步理解、發(fā)覺令人感興趣的子集以形成對探索信息的假設(shè);

  • 數(shù)據(jù)準(zhǔn)備(data preparation)

    數(shù)據(jù)準(zhǔn)備階段指從最初原始數(shù)據(jù)中未加工的數(shù)據(jù)構(gòu)造數(shù)據(jù)挖掘所需信息的活動。數(shù)據(jù)準(zhǔn)備任務(wù)可能被實施多次,而且沒有任何規(guī)定的順序。這些任務(wù)的主要目的是從源系統(tǒng)根據(jù)維度分析的要求,獲取所需要的信息,需要對數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清洗、構(gòu)造、整合等數(shù)據(jù)預(yù)處理工作;

  • 建模(modeling)

    在此階段,主要是選擇和應(yīng)用各種建模技術(shù)。同時對它們的參數(shù)進(jìn)行調(diào)優(yōu),以達(dá)到最優(yōu)值。通常對同一個數(shù)據(jù)挖掘問題類型,會有多種建模技術(shù)。一些技術(shù)對數(shù)據(jù)形式有特殊的要求,常常需要重新返回到數(shù)據(jù)準(zhǔn)備階段;

  • 模型評估(evaluation)

    在模型部署發(fā)布前,需要從技術(shù)層面判斷模型效果和檢查建立模型的各個步驟,以及根據(jù)商業(yè)目標(biāo)評估模型在實際商業(yè)場景中的實用性。此階段關(guān)鍵目的是判斷是否存在一些重要的商業(yè)問題仍未得到充分考慮;

  • 模型部署(deployment)

    模型完成后,由模型使用者(客戶)根據(jù)當(dāng)時背景和目標(biāo)完成情況,封裝滿足業(yè)務(wù)系統(tǒng)使用需求。

數(shù)據(jù)挖掘的意思是什么

數(shù)據(jù)挖掘任務(wù)

通常,數(shù)據(jù)挖掘任務(wù)分為下面兩大類。

  • 預(yù)測任務(wù)。這些任務(wù)的目標(biāo)是根據(jù)其他屬性的值,預(yù)測特定屬性的值。被預(yù)測的屬性一 般稱目標(biāo)變量(targetvariable)或因變量(dependentvariable), 而用來做預(yù)測的屬性稱說明變量(explanatoryvariable)或自變量(independentvariable)。

  • 描述任務(wù)。其目標(biāo)是導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式(相關(guān)、趨勢、聚類、軌跡和異常)。本質(zhì)上,描述性數(shù)據(jù)挖掘任務(wù)通常是探查性的,并且常常需要后處理技術(shù)驗證和解釋結(jié)果。

    數(shù)據(jù)挖掘的意思是什么

預(yù)測建模(predictivemodeling)涉及以說明變量函數(shù)的方式為目標(biāo)變量建立模型。

有兩類預(yù)測建模任務(wù):分類(classification),用于預(yù)測離散的目標(biāo)變量;回歸(regression),用于預(yù)測連續(xù)的目標(biāo)變量。

例如,預(yù)測一個Web用戶是否會在網(wǎng)上書店買書是分類任務(wù),因為該目標(biāo)變量是二值的,而預(yù)測某股票的未來價格則是回歸任務(wù),因為價格具有連續(xù)值屬性。

兩項任務(wù)目標(biāo)都是訓(xùn)練一個模型,使目標(biāo)變量預(yù)測值與實際值之間的誤差達(dá)到最小。預(yù)測建??梢杂脕泶_定顧客對產(chǎn)品促銷活動的反應(yīng),預(yù)測地球生態(tài)系統(tǒng)的擾動,或根據(jù)檢查結(jié)果判斷病人是否患有某種疾病。

關(guān)聯(lián)分析(association analysis)用來發(fā)現(xiàn)描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式。

所發(fā)現(xiàn)的模式通常用蘊涵規(guī)則或特征子集的形式表示。由于搜索空間是指數(shù)規(guī)模的,關(guān)聯(lián)分析的目標(biāo)是以有效的方式提取最有趣的模式。關(guān)聯(lián)分析的應(yīng)用包括找出具有相關(guān)功能的基因組、識別用戶一起訪問的Web頁面、 理解地球氣候系統(tǒng)不同元素之間的聯(lián)系等。

聚類分析(cluster analysis)旨在發(fā)現(xiàn)緊密相關(guān)的觀測值組群,使得與屬于不同簇的觀測值相比, 屬于同一簇的觀測值相互之間盡可能類似。聚類可用來對相關(guān)的顧客分組、找出顯著影響 地球氣候的海洋區(qū)域以及壓縮數(shù)據(jù)等。

異常檢測(anomaly detection)的任務(wù)是識別其特征顯著不同于其他數(shù)據(jù)的觀測值。

這樣的觀測值稱為異常點(anomaly)或離群點(outlier)。異常檢測算法的目標(biāo)是發(fā)現(xiàn)真正的異常點,而避免錯誤地將正常的對象標(biāo)注為異常點換言之,一個好的異常檢測器必須具有高檢測率和低誤報率。

異常檢測的應(yīng)用包括檢測欺詐、網(wǎng)絡(luò)攻擊、疾病的不尋常模式、生態(tài)系統(tǒng)擾動等。

上述就是小編為大家分享的數(shù)據(jù)挖掘的意思是什么了,如果剛好有類似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

名稱欄目:數(shù)據(jù)挖掘的意思是什么
本文網(wǎng)址:http://www.muchs.cn/article42/phohec.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供移動網(wǎng)站建設(shè)、品牌網(wǎng)站設(shè)計服務(wù)器托管、電子商務(wù)靜態(tài)網(wǎng)站、網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

小程序開發(fā)