大數(shù)據(jù)除了預(yù)測還能干啥

2021-02-11    分類: 網(wǎng)站建設(shè)

今天隨便聊聊一個Susan在2017年發(fā)在Science上文章:Beyond prediction: Using big data for policy problems。Susan Athey是美國著名的經(jīng)濟(jì)學(xué)家,現(xiàn)在是斯坦福大學(xué)商學(xué)院的教授。在平臺和大數(shù)據(jù)方面的研究方面,她大概是經(jīng)濟(jì)學(xué)界林朝英這樣的角色。值得一提的是她老公Guido Imbens在計量領(lǐng)域的名聲更加蓋過了Susan在商學(xué)領(lǐng)域的名聲,大概算是王重陽。


之所以提到這篇論文是因為里面提到了一些非常有趣的關(guān)于大數(shù)據(jù)未來在產(chǎn)業(yè)經(jīng)濟(jì)領(lǐng)域發(fā)展方向的問題。眾所周知大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)的出現(xiàn)大幅提高了我們運用數(shù)據(jù)來預(yù)測的能力,比如說一個和我們生活最息息相關(guān)的方面就是許多平臺軟件會通過大數(shù)據(jù)學(xué)習(xí)來定向推送內(nèi)容(每個人打開百度搜索相同的關(guān)鍵詞,得到的結(jié)果和排序可能都是完全不同的)。

那么對于社會科學(xué)工作者而言,一個自然而然的問題就是:我們未來的發(fā)展方向有哪些是可以和大數(shù)據(jù)方法相契合的?換而言之,社會科學(xué)工作者,或者企業(yè)領(lǐng)導(dǎo)者是不是可以直接拿來主義,運用大數(shù)據(jù)來指定相關(guān)政策,優(yōu)化社會福利或者公司運營呢?


蘇三(Susan)在她的文章里面提到了現(xiàn)實生活中大數(shù)據(jù)應(yīng)用的三個方面:

  • 醫(yī)療

醫(yī)療方面一個使用大數(shù)據(jù)預(yù)測的例子是:醫(yī)生希望通過大數(shù)據(jù)來預(yù)測符合哪些條件的病人更適合來做髖關(guān)節(jié)置換手術(shù)。所以他們使用機(jī)器學(xué)習(xí)來預(yù)測哪些手術(shù)候選人可能在手術(shù)后的一年之內(nèi)死亡,通過手術(shù)的風(fēng)險率來確定病人是否適合做這樣的置換手術(shù)。他們的說法非常具有經(jīng)濟(jì)學(xué)意義:一個人只有通過手術(shù)能夠活得很長的時候,做手術(shù)才更有意義;如果手術(shù)之后不久就死了,還要為手術(shù)承受額外的痛苦,那可能只是一種金錢上的浪費和徒勞。

其實這是一個非常具有現(xiàn)實意義的問題,比如說面對流行病我們是不是也可以使用大數(shù)據(jù)來對不同程度的感染者采取不同的治療手段,從而使得有限資源可以最合理化的分配。

然而一個重要的問題在于,我們是不是可以簡單地通過這樣的風(fēng)險分類的方式來決定手術(shù)的優(yōu)先性?同時簡單基于關(guān)聯(lián)性的機(jī)器學(xué)習(xí)結(jié)果也并無法回答更深層的問題,比如說患者之間可能存在我們看不到的異質(zhì)性問題。就目前而言我們可能并無法通過模型的預(yù)測結(jié)果來直接判斷是否某些病人可能比另一些病人更有可能引發(fā)并發(fā)癥。

回到這次的肺炎事件來看,我們?nèi)绻麅H僅從個體治療效果角度進(jìn)行判斷通過大數(shù)據(jù)建立模型來決定有效的治療手段和方案,會不會忽略了個體的傳播性?比如說有一些病患可能從個體角度上來說治療的優(yōu)先級并不是高,因為他們身強體壯。但是可能這些病患恰好是極具傳播力的人,反而應(yīng)該被優(yōu)先處理。更本質(zhì)地,到底這種根據(jù)存活率來分配稀缺資源的方式是不是就是我們?nèi)祟惿鐣非蟮淖顑?yōu)方式?

  • 城市發(fā)展

公共建設(shè)和城市發(fā)展是大數(shù)據(jù)方法運用的另一個重要維度。比如說一個很現(xiàn)實的問題是如果我們要在城市里面安排警察,監(jiān)察員,那么根據(jù)現(xiàn)有的人力物力,我們怎么樣分配調(diào)度才是最優(yōu)的。這是一個很現(xiàn)實的問題最新的研究成果就有顯示,如果在波士頓地區(qū)的參觀重新按照大數(shù)據(jù)結(jié)果安排衛(wèi)生監(jiān)察員的話,可能會相比現(xiàn)有的分配方式提高30~50%的監(jiān)察效率。

蘇三提出這看起來很美,但是相對而言我們也要知道機(jī)器學(xué)習(xí)的方法在預(yù)測效率可能會提高30~50%的同時,也忽略了兩個重要的因素。要使得效率提高成立的前提條件是:

  1. 人類的行為不會因為資源的重新分配而變動;;
  2. 即便這樣是真的,重新置換分配資源的成本也必須低于收益,不然的話政府將會缺少動力去優(yōu)化現(xiàn)有系統(tǒng)。

大數(shù)據(jù)經(jīng)常也會被用于計算城市的犯罪率,從而合理規(guī)劃警員的配置和分布??墒橇硪环矫嫖覀冃枰獡?dān)心的是一旦這種警員重新配置分布之后,很顯然也會反過來影響到潛在犯案者的行為以及犯案地點的選擇,最后可能會使得重新分配警力只是在做無用功。當(dāng)然這一切因為從來沒有發(fā)生過,自然而然也不可能直接被“大數(shù)據(jù)”所預(yù)測。

  • 企業(yè)決策

最后要說的例子是企業(yè)的決策,特別是平臺類的企業(yè)。2015年的時候Blake, Tadelis, Nosko有一篇著名的論文,發(fā)在了經(jīng)濟(jì)學(xué)的頂級刊物Econometrica上。經(jīng)濟(jì)學(xué)家?guī)椭鶨bay做了一個研究,主要是看Ebay通過付費搜索廣告來吸引消費者這樣的策略到底是否實際有效。之所以做這樣的研究是因為在經(jīng)濟(jì)學(xué)家介入之前,Ebay自己的團(tuán)隊已經(jīng)做過這樣的研究,搜索點擊和購買行為本身相互關(guān)聯(lián)。Ebay通過機(jī)器學(xué)習(xí)的方法得到了非常驚人的結(jié)果,他們發(fā)現(xiàn)通過投資搜索廣告獲得的點擊繼而造成的銷售利潤大概是成本的1400%!

這樣的結(jié)果太過驚人,以至于Ebay自己都覺得不太可信,因為如果是真的話,那豈不是意味著只要拼命投資廣告讓更多的人通過廣告點擊進(jìn)入Ebay就可以發(fā)大財?那運營企業(yè)也太容易了一些了吧。

經(jīng)濟(jì)學(xué)家們發(fā)現(xiàn)事實上造成這樣的機(jī)器學(xué)習(xí)結(jié)果的重要原因是大部分點擊廣告人的確會在點擊廣告之后購買Ebay的產(chǎn)品,但是這可能本身就是一種因果錯連。主要并不是因為點擊所以才想買,而是想買所以才會點擊。在矯正了這樣的偏誤之后,他們重新估計了廣告投入帶來的收益,發(fā)現(xiàn)事實上廣告投入帶來的平均回報是-69%而不是1400%。


大數(shù)據(jù)的發(fā)展的確很大程度上拓寬了人文社科領(lǐng)域的研究界限,但是作為方法的使用者來說,我們也更應(yīng)當(dāng)對于新方法的使用抱有謹(jǐn)慎的態(tài)度。不但要知其然,也要知其所以然,正確解讀大數(shù)據(jù)預(yù)測的結(jié)果事實上深度依靠對于數(shù)據(jù)本背后產(chǎn)生數(shù)據(jù)的人的行為決策的深入了解,以及方法本身背后隱含的假設(shè)條件。

正如Susan的丈夫重陽真人Imbens所說:除了隨機(jī)試驗以外,所有的因果判定都是基于分析者對于預(yù)測模型的合理假設(shè)才能成立。

分享文章:大數(shù)據(jù)除了預(yù)測還能干啥
網(wǎng)頁網(wǎng)址:http://muchs.cn/news/100329.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供手機(jī)網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計公司、搜索引擎優(yōu)化、動態(tài)網(wǎng)站服務(wù)器托管、網(wǎng)站內(nèi)鏈

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

手機(jī)網(wǎng)站建設(shè)