大數(shù)據(jù)會撒謊?如何戳破大數(shù)據(jù)的謊言

數(shù)據(jù)科學(xué)家使用統(tǒng)計分析工具深度挖掘數(shù)據(jù)潛在的內(nèi)容時經(jīng)常會遭遇到大數(shù)據(jù)挖的坑,實際上這些坑并不是只有大數(shù)據(jù)才有,大自然本身就存在很多虛假的相關(guān)性,大數(shù)據(jù)只是更加劇了這種虛假的相關(guān)性。

成都創(chuàng)新互聯(lián)公司是一家專業(yè)提供平?jīng)銎髽I(yè)網(wǎng)站建設(shè),專注與成都網(wǎng)站建設(shè)、網(wǎng)站設(shè)計、H5高端網(wǎng)站建設(shè)、小程序制作等業(yè)務(wù)。10年已為平?jīng)霰姸嗥髽I(yè)、政府機構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站建設(shè)公司優(yōu)惠進行中。

隨著數(shù)據(jù)來源的增多和預(yù)測類型的多樣化,數(shù)據(jù)建模關(guān)系的數(shù)量開始接近無窮大。正如David G. Young指出的那樣,在預(yù)測分析的時候,我們要看到相互作用,變化的曲率、意義,有時甚至要看到變化的標志。

在做數(shù)據(jù)建模的相關(guān)性分析時,最關(guān)鍵的是找對數(shù)據(jù)范圍,尤其是設(shè)置合適的變量和算法。一旦你找到了變量和算法的正確組合,那么你就掌握了正確打開相關(guān)性分析的密鑰。

有時候,我們會發(fā)現(xiàn)數(shù)據(jù)建模的相關(guān)性可能和實際情況并不相符,它只是你自以為正確的數(shù)據(jù)模型。即使你本身并沒有欺騙的意圖,也是按照科學(xué)的方法來建模的,但是你的數(shù)據(jù)模型并不一定能幫助你獲得數(shù)據(jù)背后的真正洞察力。

認知偏差是每一個人都會犯的錯誤,即使你是一個非常優(yōu)秀的數(shù)據(jù)科學(xué)家也不能百分百確保不犯數(shù)學(xué)和邏輯上的錯誤、正確的挖掘出數(shù)據(jù)背后的價值。

諾貝爾經(jīng)濟學(xué)獎獲得者丹尼爾·卡納曼在他的著作《思維說,快與慢》中表示:人類如果沒有接受教育,那么每個人都是生而不同的。我們可能無法看透數(shù)據(jù)統(tǒng)計的深層次內(nèi)容,但是現(xiàn)實世界確實存在著某種規(guī)律,這種規(guī)律有時難以捉摸,但有時我們只憑直覺就可以找到。

如果你是一個正在探索數(shù)據(jù)驅(qū)動的數(shù)據(jù)科學(xué)家,那么你就要注意虛假相關(guān)性,它將會是一個非常危險的陷阱。這種虛假相關(guān)性產(chǎn)生的原因可能是數(shù)據(jù)科學(xué)家太想要驗證某個假設(shè),也可能是迫于企業(yè)的商業(yè)模式的要求。利用這種虛假相關(guān)性建立的數(shù)據(jù)模型也許能夠解決一時的問題,但是它本質(zhì)還是一個劣質(zhì)的模型,經(jīng)不起時間的考驗,說不定會在哪個瞬間給你致命的一擊。

那么數(shù)據(jù)科學(xué)家如何才能減少在數(shù)據(jù)挖掘時無意中做出虛假統(tǒng)計相關(guān)性的概率。

集成學(xué)習(xí)

集成學(xué)習(xí)是使用一系列學(xué)習(xí)器進行學(xué)習(xí),并使用某種規(guī)則把各個學(xué)習(xí)結(jié)果進行整合從而獲得比單個學(xué)習(xí)器更好的學(xué)習(xí)效果的一種機器學(xué)習(xí)方法。這種方法的難點在于要在不同的樣本中進行訓(xùn)練,采用不同的算法,但是這種方法能夠有效的揭示一些相關(guān)性。集成學(xué)習(xí)的算法是通過獨立模型的結(jié)果集的訓(xùn)練、取平均、bagging、boosting等多種方法得到的,能夠有效減少各層模型之間的差異。

A/B測試

A/B測試其實是一種“先驗”的實驗體系,屬于預(yù)測型結(jié)論,與“后驗”的歸納性結(jié)論差別巨大。A/B測試顧名思義就是為同一個目標設(shè)計A、B兩套方案,其中一個為守擂者,一個為攻擊者,通過科學(xué)的實驗設(shè)計、真實的數(shù)據(jù)監(jiān)測來選出最具預(yù)測價值的方案。

穩(wěn)健模型

這種方法涉及到數(shù)據(jù)建模的方方面面,為了確保預(yù)測是穩(wěn)定的,我們要多方考慮,比如數(shù)據(jù)源、采樣技術(shù)、算法方法、時間等等。此外,離散點分析也是非常重要的,Vincent Granville前幾年就已經(jīng)表示數(shù)據(jù)集的異常有可能掩蓋數(shù)據(jù)的真正模式,增加虛假相關(guān)性的發(fā)生率。

“數(shù)據(jù)驅(qū)動決策”已經(jīng)成為這個時代的潮流,好的決策應(yīng)該是數(shù)據(jù)驅(qū)動的,所以數(shù)據(jù)模型的建立就顯得尤為重要。如果你是一個數(shù)據(jù)科學(xué)家,希望以上的方法能夠?qū)δ憬S兴鶐椭?/p>

分享名稱:大數(shù)據(jù)會撒謊?如何戳破大數(shù)據(jù)的謊言
分享地址:http://muchs.cn/article24/sdehje.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供企業(yè)建站、外貿(mào)建站App設(shè)計、網(wǎng)站導(dǎo)航、自適應(yīng)網(wǎng)站、網(wǎng)站維護

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)公司