人工智能和大數(shù)據(jù)存在什么隱患？

2021-02-24 分類(lèi)：網(wǎng)站建設(shè)

從數(shù)據(jù)稀缺到現(xiàn)在有大量的數(shù)據(jù)，近年來(lái)，可用的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)，大數(shù)據(jù)變得無(wú)處不在。這是由于數(shù)據(jù)記錄設(shè)備數(shù)量的巨大增長(zhǎng)，以及這些設(shè)備之間通過(guò)物聯(lián)網(wǎng)連接。似乎每個(gè)人都有收集、分析大數(shù)據(jù)的力量。

但是，大數(shù)據(jù)真的是萬(wàn)能的嗎?毫無(wú)疑問(wèn)，大數(shù)據(jù)已經(jīng)在某些領(lǐng)域產(chǎn)生了至關(guān)重要的影響。例如，幾乎每一個(gè)成功的人工智能解決方案都涉及大數(shù)據(jù)處理問(wèn)題。

首先要注意的是，盡管AI目前非常擅長(zhǎng)在大型數(shù)據(jù)集中查找模式和關(guān)系，但它仍然不是很智能。計(jì)算數(shù)字可以有效地識(shí)別并發(fā)現(xiàn)數(shù)據(jù)中的細(xì)微模式，但不能直接告訴我們這些相關(guān)關(guān)系中哪些實(shí)際上有意義。

相關(guān)性和因果關(guān)系

我們都知道“相關(guān)性并不意味著因果關(guān)系?！叭欢?，人類(lèi)的大腦天生就會(huì)尋找規(guī)律，當(dāng)我們看到曲線(xiàn)傾斜在一起，數(shù)據(jù)中出現(xiàn)明顯的規(guī)律時(shí)，我們的大腦就會(huì)自動(dòng)給出規(guī)律?！?/p>

然而，從統(tǒng)計(jì)數(shù)據(jù)來(lái)看，我們?nèi)匀粺o(wú)法實(shí)現(xiàn)這一飛躍?！短摷傧嚓P(guān)性》(false)一書(shū)的作者Tyler Vigen在自己的網(wǎng)站上對(duì)此進(jìn)行了調(diào)侃，還有很多例子比如展示冰淇淋是如何明顯地導(dǎo)致許多壞事的，從森林大火到鯊魚(yú)襲擊和脊髓灰質(zhì)炎爆發(fā)。

看看這些情節(jié)，人們可能會(huì)爭(zhēng)辯說(shuō)，我們很可能早就應(yīng)該禁止冰淇淋了。而且，實(shí)際上，在1940年代的小兒麻痹癥例子中，公共衛(wèi)生專(zhuān)家建議人們停止吃冰淇淋作為“反政治飲食”的一部分。幸運(yùn)的是，他們最終意識(shí)到小兒麻痹癥暴發(fā)與冰淇淋消費(fèi)之間的相關(guān)性是“完全是由于小兒麻痹癥的爆發(fā)在夏季最為普遍”。

在統(tǒng)計(jì)中，虛假關(guān)系或虛假相關(guān)性是一種數(shù)學(xué)關(guān)系，其中兩個(gè)或多個(gè)事件或變量相關(guān)聯(lián)，但由于某種偶然的或某些第三個(gè)未見(jiàn)因素的存在而因果相關(guān)(稱(chēng)為“常見(jiàn)響應(yīng)”變量”、“混雜因素”或“潛伏變量”)。這樣的“潛伏變量”的例子可以是冰淇淋銷(xiāo)量與鯊魚(yú)襲擊之間的相關(guān)性(雖然冰淇淋銷(xiāo)量的增長(zhǎng)不會(huì)導(dǎo)致鯊魚(yú)襲擊人們)。但是，這兩個(gè)數(shù)字之間有一個(gè)共同的環(huán)節(jié)，即溫度。較高的溫度導(dǎo)致更多的人購(gòu)買(mǎi)冰淇淋以及更多的人去游泳。因此，這個(gè)“潛變量”確實(shí)是表觀(guān)相關(guān)性的原因。幸運(yùn)的是，我們已經(jīng)學(xué)會(huì)將因果關(guān)系與因果關(guān)系分開(kāi)。而且，在炎熱的夏日，我們?nèi)匀豢梢韵硎鼙苛?，而不必?fù)?dān)心小兒麻痹癥爆發(fā)和鯊魚(yú)襲擊!

相關(guān)性的力量和局限性

有了足夠的數(shù)據(jù)，將會(huì)發(fā)現(xiàn)計(jì)算能力和統(tǒng)計(jì)算法的模式。但并不是所有的模式都有意義，因?yàn)樘摷倌Ｊ降臄?shù)量很容易超過(guò)有意義的模式。將大數(shù)據(jù)與算法結(jié)合起來(lái)，如果能正確地應(yīng)用于解決問(wèn)題，將是一個(gè)非常有用的工具。然而，沒(méi)有科學(xué)家會(huì)認(rèn)為你可以通過(guò)單獨(dú)處理數(shù)據(jù)來(lái)解決這個(gè)問(wèn)題，無(wú)論統(tǒng)計(jì)分析是多么強(qiáng)大，您應(yīng)該始終基于對(duì)要解決的問(wèn)題的基本理解來(lái)進(jìn)行分析。

數(shù)據(jù)科學(xué)是科學(xué)的終結(jié)嗎?

2008年6月，《連線(xiàn)》(Wired)雜志前主編C. Anderson寫(xiě)了一篇頗具煽動(dòng)性的文章，題為《理論的終結(jié):數(shù)據(jù)洪流使科學(xué)方法過(guò)時(shí)》(The End of Theory: The Data Makes The Scientific Method Obsolete)。“相關(guān)性取代因果關(guān)系，即使沒(méi)有連貫的模型和統(tǒng)一的理論，科學(xué)也能進(jìn)步?！?/p>

這種方法的強(qiáng)度和通用性依賴(lài)于數(shù)據(jù)量:數(shù)據(jù)越多，基于計(jì)算發(fā)現(xiàn)的相關(guān)性的方法就越強(qiáng)大和有效。我們可以簡(jiǎn)單地把數(shù)字輸入計(jì)算機(jī)，讓統(tǒng)計(jì)算法自動(dòng)發(fā)現(xiàn)有趣的模式和見(jiàn)解。

但是，這種簡(jiǎn)化的分析方法也存在一些潛在的陷阱，可以通過(guò)John Poppelaars在博客上找到的示例很好地說(shuō)明：

假設(shè)我們要為某些變量Y創(chuàng)建一個(gè)預(yù)測(cè)模型。例如公司的股價(jià)、在線(xiàn)廣告的點(diǎn)擊率或下周的天氣。接下來(lái)，我們收集所有可以使用的數(shù)據(jù)，并將其放入統(tǒng)計(jì)過(guò)程中，以找到Y(jié)的好預(yù)測(cè)模型。常見(jiàn)的過(guò)程是首先使用所有變量對(duì)模型進(jìn)行估計(jì)，篩選出不重要的變量，然后使用所選的變量子集重新估算模型，然后重復(fù)此過(guò)程，直到找到重要的模型為止。

但是，Anderson提出的分析方法存在一些嚴(yán)重的缺陷。我選擇了一個(gè)實(shí)例，從0到1的均勻分布中抽取100個(gè)樣本，為Y創(chuàng)建了一組數(shù)據(jù)點(diǎn)，所以它是隨機(jī)噪聲。接下來(lái)，我通過(guò)從0到1之間的均勻分布中抽取100個(gè)樣本，創(chuàng)建了一組50個(gè)解釋變量X(I)。因此，所有50個(gè)解釋變量也是隨機(jī)噪聲。我使用所有的X(I)變量來(lái)預(yù)測(cè)y，估計(jì)一個(gè)線(xiàn)性回歸模型。因?yàn)闆](méi)有任何相關(guān)的東西(所有的均布和自變量)，所以期望R2(0)，但實(shí)際上不是。結(jié)果是0。5。對(duì)于基于隨機(jī)噪聲的回歸來(lái)說(shuō)還不錯(cuò)!幸運(yùn)的是，這個(gè)模型并不重要。逐步剔除不顯著的變量，重新估計(jì)模型。重復(fù)這個(gè)過(guò)程，直到找到一個(gè)重要的模型。經(jīng)過(guò)幾個(gè)步驟后，發(fā)現(xiàn)一個(gè)顯著性模型，調(diào)整后的R平方為0.4,7個(gè)變量的顯著性水平至少為99%。再次，我們是在回歸隨機(jī)噪聲，它絕對(duì)沒(méi)有關(guān)系，但我們?nèi)匀徽业揭粋€(gè)有7個(gè)重要參數(shù)的顯著模型。如果我們只是將數(shù)據(jù)輸入統(tǒng)計(jì)算法來(lái)尋找模式，就會(huì)出現(xiàn)這種情況。

數(shù)據(jù)集越大，噪聲越強(qiáng)

最近的研究證明，隨著數(shù)據(jù)集的增長(zhǎng)，它們必定包含任意相關(guān)性。這些相關(guān)性只是由于數(shù)據(jù)的大小而出現(xiàn)，這表明，許多相關(guān)性都是虛假的。不幸的是，很多信息往往表面表現(xiàn)得很少。

這是處理多維數(shù)據(jù)的應(yīng)用程序中的主要問(wèn)題。舉例來(lái)說(shuō)，假設(shè)您從一家工廠(chǎng)的數(shù)千個(gè)傳感器中收集傳感器數(shù)據(jù)，然后挖掘這些數(shù)據(jù)以獲取模式以?xún)?yōu)化性能。在這種情況下，您很容易被數(shù)據(jù)表現(xiàn)的表象所迷惑，而不是真正的運(yùn)營(yíng)績(jī)效指標(biāo)。無(wú)論從財(cái)務(wù)上還是在工廠(chǎng)的安全運(yùn)行方面，這都可能是一個(gè)壞消息。

添加數(shù)據(jù)和添加信息

作為數(shù)據(jù)科學(xué)家，我們可能經(jīng)常會(huì)說(shuō)，改善人工智能模型的好解決方案是“添加更多數(shù)據(jù)”。然而，僅僅“添加更多數(shù)據(jù)”就能提高模型性能嗎?不是這樣的。我們應(yīng)該關(guān)注的是“添加更多的信息”?！疤砑訑?shù)據(jù)”和“添加信息”之間的區(qū)別是至關(guān)重要的:添加更多的數(shù)據(jù)并不等于添加更多的信息(至少是有用和正確的信息)。相反，由于盲目地添加越來(lái)越多的數(shù)據(jù)，我們有可能添加包含錯(cuò)誤信息的數(shù)據(jù)，這些錯(cuò)誤信息會(huì)相應(yīng)地降低模型的性能。隨著數(shù)據(jù)的大量訪(fǎng)問(wèn)以及處理數(shù)據(jù)的計(jì)算能力，考慮這一點(diǎn)變得越來(lái)越重要。

結(jié)論

那么，上述挑戰(zhàn)是否應(yīng)該阻止您采用以數(shù)據(jù)為依據(jù)的決策? 不，數(shù)據(jù)驅(qū)動(dòng)的決策將繼續(xù)存在。隨著我們獲得更多有關(guān)如何好利用數(shù)據(jù)和信息以提高績(jī)效的知識(shí)，這些將變得越來(lái)越有價(jià)值。

但是要意識(shí)到，要使方案成功，不僅需要硬件和大量數(shù)據(jù)，大數(shù)據(jù)和計(jì)算能力也是重要的組成部分。而且，您應(yīng)該了解連接數(shù)據(jù)的基本機(jī)制。數(shù)據(jù)不能說(shuō)明一切，是人類(lèi)給數(shù)字賦予了含義。數(shù)據(jù)的數(shù)量、種類(lèi)是無(wú)法更改的。

網(wǎng)站題目：人工智能和大數(shù)據(jù)存在什么隱患？
標(biāo)題URL：http://www.muchs.cn/news2/102652.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供品牌網(wǎng)站設(shè)計(jì)、App開(kāi)發(fā)、定制網(wǎng)站、做網(wǎng)站、網(wǎng)站建設(shè)、動(dòng)態(tài)網(wǎng)站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話(huà)：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

現(xiàn)代農(nóng)業(yè)原來(lái)是這樣的，太震撼了！ 2021-02-24
SEO排名對(duì)關(guān)鍵詞布局及優(yōu)化有哪些注意問(wèn)題 2021-02-24
創(chuàng)新互聯(lián)告訴你學(xué)習(xí)PS可以為我們做什么? 2021-02-24
商標(biāo)轉(zhuǎn)讓中的注意事項(xiàng) 2021-02-24
程序員的十大謊言，是否有你？ 2021-02-24
Linux運(yùn)維中常見(jiàn)安全常識(shí)分享 2021-02-24

人工智能和大數(shù)據(jù)存在什么隱患？

人工智能和大數(shù)據(jù)存在什么隱患？