數(shù)據(jù)是一種信仰——他到底是否值得信賴?

互聯(lián)網(wǎng)IDC圈4月13日報(bào)道,利用數(shù)據(jù)來驅(qū)動(dòng)商業(yè)決策的制定,對于現(xiàn)在的企業(yè)來說,顯得尤為重要,企業(yè)可以因此知道如何向自己的客戶群做銷售以及服務(wù)。然而IBM調(diào)查發(fā)現(xiàn),有大約三分之一的企業(yè)領(lǐng)導(dǎo)不相信他們用來做決策制定的信息。當(dāng)企業(yè)領(lǐng)導(dǎo)人不相信自己的數(shù)據(jù)的時(shí)候,他們極有可能不會(huì)支持公司花費(fèi)精力收集更多數(shù)據(jù),反而不去利用數(shù)據(jù)。那么你可以有什么樣的辦法讓你的執(zhí)行者對他們所使用的數(shù)據(jù)信息深信不疑呢?那么首先,你應(yīng)該讓他們清除的認(rèn)識(shí)到數(shù)據(jù)本身所具備的真實(shí)性。

成都創(chuàng)新互聯(lián)公司是一家專業(yè)提供歷城企業(yè)網(wǎng)站建設(shè),專注與成都做網(wǎng)站、成都網(wǎng)站制作、H5建站、小程序制作等業(yè)務(wù)。10年已為歷城眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站制作公司優(yōu)惠進(jìn)行中。

數(shù)據(jù)真實(shí)性

現(xiàn)如今,我們可以用很多不同種類型的性質(zhì)來描述數(shù)據(jù),在大數(shù)據(jù)時(shí)代,其中有三種關(guān)于數(shù)據(jù)的特性——規(guī)模、速度和多樣性——已經(jīng)主導(dǎo)了人們在談?wù)摯髷?shù)據(jù)話題時(shí)候的內(nèi)容。但是還有一些人又為數(shù)據(jù)的特性引入了另外三種特性(比如Value-價(jià)值,Veracity-真實(shí)性,Viability-可行性)。但是Seth Grimes正確地指出了這三種新特性正在誤導(dǎo)人們對大數(shù)據(jù)的理解,因?yàn)楹腿N特性并沒有清晰地向你解釋你的數(shù)據(jù)有何“大”之有。盡管如此,我們還是需要考慮數(shù)據(jù)的這些特性——你的數(shù)據(jù)體量龐大還是渺小,穩(wěn)定還是不斷移動(dòng),結(jié)構(gòu)化的還是非結(jié)構(gòu)化的。

你的數(shù)據(jù)的真實(shí)性關(guān)乎到數(shù)據(jù)的準(zhǔn)確和可信賴程度,也關(guān)乎數(shù)據(jù)分析得到的結(jié)果。你的數(shù)據(jù)的真實(shí)性會(huì)因其生成、收集以及分析等過程中所產(chǎn)生的不同類型誤差而收到影響。如果你的數(shù)據(jù)在處理過程中引入越多的誤差,那么你的數(shù)據(jù)的可信任程度就不會(huì)很高。

EnsuringVeracity of your Data 務(wù)必確保數(shù)據(jù)的準(zhǔn)確真實(shí)性

在2013年年初,Kate Crawford(凱特·克勞福德)在《哈弗商業(yè)評論》期刊上面以一篇名為《大數(shù)據(jù)背后隱藏的偏見》的文章發(fā)表了自己對于數(shù)據(jù)“真實(shí)性”的這種特質(zhì)的觀點(diǎn)。“如果你的足夠量的數(shù)據(jù)的話,它的數(shù)量就已經(jīng)不言而喻了”——對于這個(gè)觀點(diǎn)的爭論,凱特正確地闡述道人們?yōu)閿?shù)據(jù)賦予了發(fā)言權(quán);人們從數(shù)據(jù)當(dāng)中得出推斷,并賦予了數(shù)據(jù)跟多的內(nèi)涵。但不幸的是,人們將自己的偏見引入到了其中,無論是刻意為之還是出于無意,這種做法都將數(shù)據(jù)的質(zhì)量大打折扣。

如果向提高數(shù)據(jù)的真實(shí)性,那么你必須降低來自不同誤差源的發(fā)生頻率。這些誤差源往往和以下方面息息相關(guān):采樣方法、缺失數(shù)據(jù)、科研偏見以及差強(qiáng)人意的測量方式等。在你利用數(shù)據(jù)做出決定之前,請先認(rèn)真回答下面的問題:

1.What is (are) your hypothesis(es)? 你的假設(shè)是什么?

“大數(shù)據(jù)技術(shù)就是找到各個(gè)變量之間的關(guān)聯(lián)性而非檢測有這種關(guān)系存在的原因”——盡管該觀點(diǎn)廣受歡迎,但是我相信對于企業(yè)的長期價(jià)值而言,大數(shù)據(jù)技術(shù)應(yīng)該是弄清楚變量之間的偶然關(guān)聯(lián)問題。假設(shè)實(shí)驗(yàn)是為了辨認(rèn)出為什么變量相互之間會(huì)存在某種關(guān)聯(lián),以及驅(qū)使這些被發(fā)現(xiàn)的關(guān)系的基本流程。假設(shè)實(shí)驗(yàn)有助于通過試錯(cuò)法改進(jìn)分析模型,這樣做可以找到因果變量并幫助你從不同的條件當(dāng)中找到新發(fā)現(xiàn)。

在過剩的變量和數(shù)據(jù)集的幫助下,企業(yè)能夠快速檢測出成百上千種關(guān)系。發(fā)現(xiàn)數(shù)據(jù)中存在的統(tǒng)計(jì)學(xué)關(guān)系的可能性會(huì)在檢測關(guān)系的絕對數(shù)量時(shí)有顯著的提升。經(jīng)常因?yàn)閹茁实脑?,?dāng)變量之間的關(guān)聯(lián)性不存在原因的時(shí)候,實(shí)際上,我們可以發(fā)現(xiàn)兩個(gè)變量之間存在的統(tǒng)計(jì)學(xué)關(guān)系。因此,如果你使用這些虛假的發(fā)現(xiàn)結(jié)果為支持你現(xiàn)存的想法的化,那么這樣做的結(jié)果就是你的決策肯定不是最優(yōu)的。

你能做的就是先做一個(gè)假設(shè),然后對其進(jìn)行測試。

2.Whatare your biases? 你的偏見有哪些?

人們總是尋找/記住/解釋支持他們現(xiàn)有觀念的結(jié)果,并忽略或者低估那些無法支撐他們觀點(diǎn)的結(jié)果。這些被當(dāng)作確認(rèn)偏見的認(rèn)知捷徑,往往導(dǎo)致你對數(shù)據(jù)的錯(cuò)誤結(jié)論。

你能做什么呢?具體來講,你需要做的是就是查看你的數(shù)據(jù),并從中得到可以駁斥你的信念的證據(jù)。如果你在預(yù)測消費(fèi)者忠誠度的是時(shí)候人為產(chǎn)品質(zhì)量遠(yuǎn)比服務(wù)質(zhì)量重要的話,那么你一定要為服務(wù)質(zhì)量帶來的相關(guān)影響搜集證據(jù)。

你也不要依賴你的記憶。在任何一種數(shù)據(jù)的基礎(chǔ)上做決策的時(shí)候,記得要引述那些有相關(guān)數(shù)據(jù)出現(xiàn)的報(bào)告或者研究案例。參考你的信息員可以幫助其他人辨認(rèn)信息并幫助他們理解你的決策,并讓他們知道你將如何實(shí)現(xiàn)你的決策。如果他們得到結(jié)論和你大相徑庭,一定要弄清楚你的結(jié)論和別人相比存在怎樣的差異(數(shù)據(jù)質(zhì)量?不同的指標(biāo)?還是不同的分析?)

你還要使用推理統(tǒng)計(jì)學(xué)方法從隨機(jī)雜音當(dāng)中區(qū)分出真實(shí)的、系統(tǒng)性的以及有內(nèi)涵的數(shù)據(jù)差異。在圖片下面要加上語言描述。清晰的描述可以保證你的圖片不會(huì)引起太多的誤解。你也可以讓來自不同領(lǐng)域的專業(yè)人士(比如IT或者銷售)為你進(jìn)行闡述,,這樣的話你會(huì)得到關(guān)于一個(gè)數(shù)據(jù)的不同角度的解讀。

3.What isthe sample size? 樣本的大小如何?

我們幾乎很少(或者根本沒有)獲取到那些對我們感興趣的所有群體。相反,我們依靠從該群體中提取出的樣本的測量來對這些群體進(jìn)行推斷。比如從我們的客戶群(樣本)中的一部分收集消費(fèi)者滿意度信息來了解整個(gè)消費(fèi)群體的滿意度。

當(dāng)你使用樣本來理解整個(gè)群體情況的時(shí)候,你不得不去了解樣本中存在的誤差。樣本誤差可以反映出來自客戶群體數(shù)據(jù)的樣本的誤差。因?yàn)檫@種樣本僅僅是整個(gè)群體的一個(gè)子集,我們的評估僅僅會(huì)因?yàn)闃颖局皇钦麄€(gè)消費(fèi)群體的一部分,而涵蓋誤差在里面。

你可以做什么?你可以利用推斷統(tǒng)計(jì)學(xué)方法幫助你進(jìn)行理解,如果你發(fā)現(xiàn)樣本有可能會(huì)反映出整體人群當(dāng)中的情況。

4.What is the data source? 數(shù)據(jù)源是什么樣子的?

即使當(dāng)我們有大量數(shù)據(jù)集的時(shí)候,其中存在的樣本誤差可能會(huì)因?yàn)閿?shù)據(jù)量的巨大而有所降低,我們需要知道數(shù)據(jù)源在哪里——因?yàn)閿?shù)據(jù)不會(huì)憑空產(chǎn)生。我們可以刻意產(chǎn)生一些數(shù)據(jù)并進(jìn)行收集,然后通過這些數(shù)據(jù)來解決問題。比如,我們可以分析在颶風(fēng)桑迪發(fā)生期間人們發(fā)布推特的地點(diǎn),數(shù)據(jù)向我們展示了和新澤西相比,更多的博文來源于曼哈頓的鬧市區(qū)。依靠簡單的數(shù)據(jù)計(jì)數(shù),你會(huì)發(fā)現(xiàn)颶風(fēng)的主要攻擊地點(diǎn)位于曼哈頓鬧市區(qū)。但事實(shí)上,颶風(fēng)襲擊的是新澤西,但是颶風(fēng)讓新澤西電力供應(yīng)癱瘓,所以人們一時(shí)無法使用推特發(fā)布推文。

除此之外,據(jù)估計(jì)僅有18%的美國青年網(wǎng)民使用推特,其年齡主要分布在18到29歲之間。同樣,在2012年僅有8%的人使用移動(dòng)設(shè)備進(jìn)行購物并通過推特發(fā)布自己的購物體驗(yàn)。推特,在商業(yè)情景當(dāng)中,代表了一小撮,也許也是一種有偏見的數(shù)據(jù)集。

你能做什么?仔細(xì)審查數(shù)據(jù)源,看看數(shù)據(jù)是否適合有足夠信息量來支撐你的發(fā)問??梢钥紤]使用不同的數(shù)據(jù)源對你的假設(shè)進(jìn)行測試。多重線路的聚合證據(jù)總比單一線路的證據(jù)更有說服力。

最后的想法

商業(yè)決策的質(zhì)量取決于商業(yè)數(shù)據(jù)的質(zhì)量(以及使用數(shù)據(jù)的預(yù)測分析模型)。如果你從最最華而不實(shí)的分析模型當(dāng)中進(jìn)行推論的時(shí)候,而且你的數(shù)據(jù)建立在不可靠而且無效的信息基礎(chǔ)之上,那么當(dāng)你的模型在實(shí)際中運(yùn)行時(shí)(比如你的模型可以預(yù)測現(xiàn)實(shí)),整個(gè)過程就像煉獄一樣。就像業(yè)內(nèi)人士說的那樣——輸入的是垃圾,輸出的也是垃圾!

當(dāng)前題目:數(shù)據(jù)是一種信仰——他到底是否值得信賴?
URL分享:http://muchs.cn/article46/sdeceg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供虛擬主機(jī)App開發(fā)、外貿(mào)網(wǎng)站建設(shè)、響應(yīng)式網(wǎng)站、網(wǎng)站排名、網(wǎng)站營銷

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

微信小程序開發(fā)