2021-02-01 分類: 網(wǎng)站建設
大數(shù)據(jù)聽著很牛,實際上也很牛嗎?
就是收集很多用戶數(shù)據(jù),用機器進行處理嘛,干嘛整天吵得這么high。傳統(tǒng)行業(yè)的數(shù)據(jù),收集和分析慢,互聯(lián)網(wǎng)時代特別是移動互聯(lián)網(wǎng)時代,數(shù)據(jù)收集和分析都變得更快更智能,僅此而已吧。
真的是這樣嗎?今天創(chuàng)新互聯(lián)來看看兩位業(yè)內(nèi)人士的深入分析。
01
大數(shù)據(jù)的商業(yè)價值
大數(shù)據(jù)是近年來新出熱門詞匯,人們對于大數(shù)據(jù)的理解還不夠全面,甚至存在一些誤區(qū),認為數(shù)據(jù)量大就是大數(shù)據(jù),或者認為里面數(shù)字大也是大數(shù)據(jù),實際上這些只屬于統(tǒng)計的范疇,和大數(shù)據(jù)是沒有關系的。
所謂大數(shù)據(jù),其實是有兩部分組成的。一部分是海量運算存儲能力,一部分是數(shù)據(jù)建模算法。
認為大數(shù)據(jù)是更快更智能的處理技術的人,只是認識到了大數(shù)據(jù)海量運算儲存能力,而這部分只是量變,卻沒有認識到質(zhì)變。
如果針對消費者市場,大數(shù)據(jù)的目標是對每個消費者有清楚的認知和跟蹤。
你的年齡、身高、家庭背景、收入水平、信用水平等等這些表面的客觀的信息自不必說,你此刻在哪里、喜歡什么顏色、喜歡什么風格、想要什么東西,都能夠收集分析出來。之后便會在你正在看的視頻網(wǎng)站、正刷的APP,所有這些界面上呈現(xiàn)信息,引導你關注。
隨著這項技術的進步,甚至可以提前預知你想要購買的東西,提前一步給你送達。可以想象一下,你想買一個東西下單二十分鐘就到你家門口了,因為早就預測到你什么時候想要什么了,所以幾天前預測到就提前發(fā)貨到你小區(qū)的提貨點了。
這樣的精準的服務,以后對消費者而言當然是習慣了就不再記得它有多偉大。就像過去的工業(yè)革命,只有經(jīng)歷那個時代的當事人那個時代的締造者們才會對那些創(chuàng)造充滿激情,而我們對隨手可得的電和各種電器還會有什么驚喜嗎?
傳統(tǒng)的數(shù)據(jù)行業(yè),一沒有足夠強的數(shù)據(jù)獲取能力,二沒有足夠強的數(shù)據(jù)加工能力。包括以前靠預測總統(tǒng)大選起家的那家公司,他們的采樣是局限的,比如寄調(diào)查問卷,調(diào)查問卷這種采樣是難以重現(xiàn)真實的,且基于傳統(tǒng)的小樣本統(tǒng)計方法。另外,數(shù)據(jù)處理能力也很有限。
與之相反,大數(shù)據(jù)的采樣是無法說謊的,你點擊、瀏覽、地理信息等等這一切行為都在眼皮底下發(fā)生。這是大數(shù)據(jù)的第一個“大”,維度大。
同時,數(shù)據(jù)采樣是覆蓋幾億人口全天候的。這是大數(shù)據(jù)的第二個“大”,數(shù)量大。相對傳統(tǒng)的抽樣小樣本集而言,大數(shù)據(jù)可以稱之為全樣本。正是這兩個“大”,就能夠帶來數(shù)據(jù)的質(zhì)變。
再看數(shù)據(jù)加工。傳統(tǒng)的加工,恐怕多數(shù)人靠Excel吧!我們采一天的數(shù)據(jù)就能撐爆幾萬臺你們家里的電腦硬盤。至于計算,可以想像一下,對這個數(shù)量級的數(shù)據(jù)矩陣做個最簡單的矩陣分解要怎么實現(xiàn)。這是機器的能力。
人的方面,現(xiàn)在很多傳統(tǒng)的搞這些的統(tǒng)計方向的人經(jīng)常會說,“唉,現(xiàn)在都搞算法去了”。沒錯,算法就是人與機器協(xié)作的溝通方式,只有和機器深度合作,才能得到更高的生產(chǎn)力。
這一切,在消費者的眼里,也許也不是那么的了不起,不就是一下單馬上就到嘛,不就是各種方便嘛,怎樣還不是一樣的活。但是這對商業(yè)而言卻是驚天動地的。
過去你賣衣服的,你的周轉庫存和滯銷庫存恐怕吃掉了你一半的利潤都不止;一旦有了大數(shù)據(jù)支撐,你的庫存幾乎可以忽略了。過去你搞設計的,你耗盡心力設計出來的作品很可能在市場上得不到認可;有了這個精準大殺器,消費者的數(shù)據(jù)會告訴你他們要什么,你設計師錦上添花就好,真正的設計者其實是消費者自己。
過去你搞營銷的,投入一大筆錢搞個營銷方案,結果收效甚微;一旦有了這個精準大殺器,營銷的投入風險就低多了。
大數(shù)據(jù)帶來的精準對商業(yè)的影響是方方面面的。這是新時代對舊時代的淘汰。除了商業(yè),還有大量別的用處,都將深刻地改變世界。比如個人征信、醫(yī)療行業(yè)、能源行業(yè)、公路交通等等。太多太多,這些都會深刻地改變世界的運作方式
02
技術角度分析大數(shù)據(jù)
我有20個整數(shù),一把全裝進內(nèi)存,調(diào)用個sort,完事了。
我有2GB那么多的整數(shù),一把全裝進內(nèi)存……恩恩,如果機器不那么破,勉強也完事吧。
我有20GB那么多的整數(shù),對,往你家PC里多插幾條8GB的內(nèi)存條試試?
那我現(xiàn)在有200GB那么多的整數(shù)……看你丫的怎么裝內(nèi)存,哈哈哈哈哈哈!
嚇尿了吧???寫外排序?你寫啊!It's ONLY the beginning!很多人可是連內(nèi)存里的快排都寫不出的哦~
200GB算個啥大數(shù)據(jù)啊,蒼老師的合集都不止咳咳……
OK,顯然我們已經(jīng)意識到1臺機器裝不下了。咋辦?多找?guī)着_機器唄。多找?guī)着_機器意味著啥???分布式計算懂不懂,連分布式都不懂說個毛大數(shù)據(jù)?。。?!
好,現(xiàn)在有200GB的整數(shù),排個序吧……呃,給你10臺機器吧。
1)這200GB的整數(shù),如何分配?
2)這10臺機器之間如何通訊?沒錯,我不止坑了你去寫外排序,我還得坑你去玩網(wǎng)絡編程。
3)假設每一臺機器上的數(shù)據(jù)都已經(jīng)完全排好,如何多快好省地把各自排序好的結果merge在一起?
4)如何設計有效的merge邏輯減少10臺機器之間的網(wǎng)絡IO。
5)別以為10臺機器不需要維護,萬一在排序的時候其中一臺機器掛了,怎么辦?具體包括但不限于:他在掛之前有響應其他機器發(fā)給他的request嗎?他在掛之前自身的任務完成了多少了?假設這臺機器在掛的時候正在跟隔壁的機器互相傳輸數(shù)據(jù)腫么辦?
6)誰去監(jiān)聽這10臺機器的健康?或者是其他機器怎么知道某臺機器掛了?如果是連接超時,怎么知道是網(wǎng)絡阻塞還是目標機真的掛了?
7)如果某臺機器真的掛了無法恢復,又或者由于隔壁的黃大牛要打魔獸了劫走了一臺(集群升級,集群中的節(jié)點被臨時撤走的事常有哦),如何把那臺機器上那20GB的數(shù)據(jù)分給其余的9臺?
如果數(shù)據(jù)不是200GB,而是2TB,2PB……
1)這么大的數(shù)據(jù),這么大的集群,同一時間掛掉的機器數(shù)量可能會很多。如果這個集群用來做存儲(例如百度云),怎么保證用戶的數(shù)據(jù)不丟失?
2)如果這個集群用來做離線計算,怎么設計調(diào)度程序提高每臺機器的資源利用率,減少集群內(nèi)的網(wǎng)絡IO和盡可能地提高每臺機器的響應速度?
3)我希望集群是可擴展的,最好架構能支持我只要簡單地增加機器數(shù)目就能擴充集群的計算和存儲能力,這個架構要怎么設計?
建議題主有空去了解下mapreduce,hadoop,yarn,mpi,vfs等等內(nèi)容。
“傳統(tǒng)行業(yè)的數(shù)據(jù),收集和分析慢,互聯(lián)網(wǎng)時代特別是移動互聯(lián)網(wǎng)時代,數(shù)據(jù)收集和分析都變得更快更智能,僅此而已吧?!?/p>
只所以題主會這么說,是因為題主作為局外人,能看到的就只有這些表面的最直觀的現(xiàn)象。一句簡單的“數(shù)據(jù)分析變得智能了更快了”的背后,實際上是無數(shù)人付出的勤奮、創(chuàng)造力、勇敢還有艱辛!
馬云爸爸說,未來是DT時代,大數(shù)據(jù)是最重要的資產(chǎn)。
未來三至五年,中國需要180萬數(shù)據(jù)人才,但目前只有約30萬人。到2020年,企業(yè)基于大數(shù)據(jù)計算分析存儲、數(shù)據(jù)挖掘、數(shù)據(jù)分析等數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,我國需要更多的數(shù)據(jù)人才。
本文標題:大數(shù)據(jù)技術真的很牛嗎?大數(shù)據(jù)到底值錢在什么地方?
標題鏈接:http://muchs.cn/news1/98651.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供微信小程序、域名注冊、微信公眾號、軟件開發(fā)、關鍵詞優(yōu)化、品牌網(wǎng)站建設
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容