Hadoop沒有消亡,它是大數(shù)據(jù)的未來(lái)

人認(rèn)為 Hadoop 正在失敗,但硅谷數(shù)據(jù)管理公司 Hortonworks 的總經(jīng)理 Vamsi K. Chemitiganti 并不這么看,為了反駁此前一篇文章《為什么 Hadoop 正在消亡?(Why Hadoop is Failing)》的觀點(diǎn),他在自己的博客上寫了一篇論述自己看法的文章,他認(rèn)為達(dá)爾文式的開源生態(tài)系統(tǒng)正在確保 Hadoop 成為穩(wěn)固和成熟的技術(shù)平臺(tái)。

成都創(chuàng)新互聯(lián)于2013年開始,先為青龍等服務(wù)建站,青龍等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為青龍企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問(wèn)題。

「女士,那么剛出生的孩子能干什么?」——邁克爾·法拉第,在 18 世紀(jì)被問(wèn)及新發(fā)明的電有什么用的時(shí)候。

為什么 Hadoop 正在發(fā)展壯大

過(guò)去兩年來(lái),我一直致力于大數(shù)據(jù)方面的研究,并在這段時(shí)間里經(jīng)歷了令人感到震撼的變革,因?yàn)槲乙恢痹谌蚋鞯貫殂y行業(yè)的領(lǐng)導(dǎo)者們提供咨詢服務(wù)。

這也是為什么當(dāng)近期 KDnuggets 出現(xiàn)了一篇挑釁性質(zhì)的《為什么 Hadoop 正在消亡》時(shí),我必須站出來(lái)反對(duì)了。在那篇文章中,作者的討論具有建設(shè)性,但問(wèn)題在于其討論基于一些毫無(wú)根據(jù)的假設(shè)。在深入研究之前,我們要考慮其中的背景。

公司業(yè)務(wù)中數(shù)字架構(gòu)的出現(xiàn)意味著公司能夠與全球客戶/消費(fèi)者/病人持續(xù)地在線互動(dòng)。其目的并不僅僅是為了提供友好的可視化內(nèi)容,而是為了提供跨渠道,多類型的個(gè)性化服務(wù)。移動(dòng)應(yīng)用首先迫使企業(yè)將服務(wù)形式升級(jí)為與消費(fèi)者在多渠道中展開溝通。例如銀行業(yè),所有銀行現(xiàn)在都涵蓋了四到五種服務(wù)方式:移動(dòng) app、電子銀行、呼叫中心、快捷銀行等。醫(yī)療保健業(yè)有希望成為下一個(gè)改變面貌的行業(yè),護(hù)理人員已經(jīng)開始采用 iPad 來(lái)協(xié)助診斷,存儲(chǔ)和處理患者的藥物和疾病數(shù)據(jù)。大數(shù)據(jù)技術(shù)的發(fā)展是為了克服以往方法(RDBMS 和 EDW)的局限性,解決在數(shù)字應(yīng)用堆棧中數(shù)據(jù)架構(gòu)和分析的挑戰(zhàn)。

這些挑戰(zhàn)包括:

數(shù)據(jù)體量擴(kuò)大的挑戰(zhàn)。公司數(shù)據(jù)種類的飛速膨脹。Hadoop 顯然也有自己的限制——例如支持低延遲 BI(Business Intelligence,商業(yè)智能)查詢的能力。但是 Hadoop 之前的方法顯然有更多的缺陷,它們無(wú)法處理和管理大量數(shù)據(jù),從而為數(shù)字架構(gòu)的業(yè)務(wù)帶來(lái)了兩大挑戰(zhàn)。第一個(gè)挑戰(zhàn)是在企業(yè)數(shù)據(jù)流架構(gòu)中實(shí)時(shí)提供洞見;第二個(gè)挑戰(zhàn)是進(jìn)行進(jìn)一步分析的能力:快速進(jìn)行預(yù)測(cè)分析和深度學(xué)習(xí)(經(jīng)常需要每秒處理百萬(wàn)條信息),從而能夠跨領(lǐng)域解決復(fù)雜問(wèn)題。Hadoop 是唯一能讓這些挑戰(zhàn)化為有效商業(yè)機(jī)會(huì)的方式。

達(dá)爾文式的開源生態(tài)系統(tǒng)正在確保 Hadoop 成為穩(wěn)固和成熟的技術(shù)平臺(tái)。

目前的絕大多數(shù) Hadoop 大數(shù)據(jù)項(xiàng)目(超過(guò) 25 個(gè))都依靠開源社區(qū)在 Apache 生態(tài)系統(tǒng)中孵化、開發(fā)和維護(hù)。開源社區(qū)本質(zhì)上是達(dá)爾文式的。它專注于代碼質(zhì)量和行業(yè)應(yīng)用,依賴于路線圖和提交者的正確性,如果一個(gè)項(xiàng)目缺乏這些,那它會(huì)很快走進(jìn)墳?zāi)?。換句話說(shuō),生態(tài)系統(tǒng)中沒有落后者的位置。

讓我們看看那篇文章中作者的主要假設(shè)吧。

假設(shè) 1:Hadoop 采用不再增長(zhǎng),最多持平

我日常工作中的最重要的部分是與多個(gè)客戶合作探討他們的業(yè)務(wù)計(jì)劃以及尋找應(yīng)用技術(shù)來(lái)解決這些復(fù)雜難題的方法。我可以證明大企業(yè)對(duì) Hadoop 的采用絕對(duì)沒有停滯不前。盡管我的觀點(diǎn)肯定是道聽途說(shuō),而且不是來(lái)自于企業(yè)內(nèi)部的內(nèi)幕,但在銀行業(yè)、電信業(yè)、制造業(yè)和保險(xiǎn)業(yè),Hadoop 的采用卻實(shí)實(shí)在在地在飛漲。在早期就與領(lǐng)先的供應(yīng)商合作的企業(yè)已經(jīng)或多或少找到了將這項(xiàng)技術(shù)應(yīng)用于它們的業(yè)務(wù)難題的好方法。采用 Hadoop 的模式正在成熟,而且它們也正在意識(shí)到其中巨大的商業(yè)價(jià)值。一家領(lǐng)先的供應(yīng)商 Hortonworks 在實(shí)現(xiàn) 1 億美元年收入的道路上比其它任何科技創(chuàng)業(yè)公司都跑得快——這是該領(lǐng)域潛力的有力證明。Cloudera 剛剛已經(jīng)上市。在見證著這樣的增長(zhǎng)的同時(shí),我們也看到領(lǐng)先的 EDW 供應(yīng)商的收入和股價(jià)卻略有下跌。我預(yù)計(jì),未來(lái) 5-7 年內(nèi)就會(huì)出現(xiàn)第一家年收入達(dá)到 10 億美元的大數(shù)據(jù)「創(chuàng)業(yè)公司」,與備受尊敬的開源先驅(qū) Red Hat 相比還多少快一點(diǎn)。至少,Hadoop 項(xiàng)目能幫助企業(yè)從昂貴和不靈活的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目上節(jié)省成百上千萬(wàn)美元。幾乎所有組織都已經(jīng)開始部署 Hadoop,以作為它們的企業(yè)登陸區(qū)(ELZ:Enterprise Landing Zone),從而增強(qiáng)它們的 EDW。

假設(shè) 2:使用 Hadoop 創(chuàng)造的項(xiàng)目的商業(yè)價(jià)值不明顯

該作者在這方面還有點(diǎn)道理,但讓我解釋一下為什么這是組織機(jī)構(gòu)所面臨的難題,而實(shí)際上并不是任何技術(shù)堆棧(中間件或云或大數(shù)據(jù))的過(guò)錯(cuò)。這個(gè)難題在于:尋找大數(shù)據(jù)項(xiàng)目的商業(yè)價(jià)值往往是一個(gè)精細(xì)活,涉及到整個(gè)復(fù)雜的組織結(jié)構(gòu)。IT 部分當(dāng)然可以將 POC(概念驗(yàn)證)作為一門科學(xué)或一項(xiàng)「一次性簡(jiǎn)歷構(gòu)建」項(xiàng)目而開始,但其業(yè)務(wù)線需要從一開始就參與進(jìn)來(lái),比其它任務(wù)技術(shù)類別都早。大數(shù)據(jù)并不是關(guān)于存儲(chǔ)大量數(shù)據(jù)的基礎(chǔ)設(shè)施的施工,而是關(guān)于如何在收集和策劃的數(shù)據(jù)上創(chuàng)造業(yè)務(wù)分析。不管這些分析是簡(jiǎn)單而老套的商業(yè)智能(BI),還是數(shù)據(jù)科學(xué)導(dǎo)向的,它們都依賴于一個(gè)組織本身的文化和創(chuàng)新。

組織機(jī)構(gòu)不僅在使用大數(shù)據(jù)來(lái)解決已有的業(yè)務(wù)難題(銷售更多商品、檢測(cè)欺詐、報(bào)告風(fēng)險(xiǎn)等),而且也在使用大數(shù)據(jù)分析得到的見解來(lái)快速實(shí)驗(yàn)新的業(yè)務(wù)模型。聰明的 CDO(首席數(shù)據(jù)官)應(yīng)該知道如何擁有這種技術(shù)、創(chuàng)造合適的內(nèi)部成本核算模型并將已有的業(yè)務(wù)線(LOB)項(xiàng)目納入到數(shù)據(jù)湖(data lake)。

每個(gè) CDO 在一開始時(shí)就要提出以下兩個(gè)問(wèn)題:

整個(gè)組織將要具備怎樣的業(yè)務(wù)能力?哪方面的數(shù)字轉(zhuǎn)換可以通過(guò)大數(shù)據(jù)達(dá)到最優(yōu)?

假設(shè) 3:對(duì)于 PB 級(jí)的大規(guī)模數(shù)據(jù),大數(shù)據(jù)是唯一可行的技術(shù)解決方案

該作者寫道:「如果你的企業(yè)沒有巨量數(shù)據(jù)的問(wèn)題,你真的用不著 Hadoop,所以數(shù)以百計(jì)的企業(yè)都對(duì)他們無(wú)用的 2 到 10 TB 的 Hadoop 集群感到非常失望——在這種規(guī)模上,Hadoop 技術(shù)沒有任何優(yōu)勢(shì)。」

這并不能從實(shí)際情況上觀察到,因?yàn)橐韵氯齻€(gè)原因:

首先,大多數(shù) TB 級(jí)的項(xiàng)目都是租用的更大規(guī)模的集群。數(shù)據(jù)湖的真正價(jià)值是在跨組織的數(shù)據(jù)庫(kù)上構(gòu)建,而在此之前,這么做需要高昂的成本,或者難度太大。一旦你將所有數(shù)據(jù)都集中到了一處,那么你就可以將它們混合起來(lái),以一種前所未有的方式對(duì)其進(jìn)行分析。

其次,正如我將在下面說(shuō)的那樣,許多玩家正在使用大數(shù)據(jù)來(lái)在操作 TB 級(jí)的數(shù)據(jù)的同時(shí)獲得關(guān)鍵的「速度」優(yōu)勢(shì)。

第三,我推薦每一個(gè)客戶從「小」開始,并將數(shù)據(jù)湖用作企業(yè)登陸區(qū)——用于企業(yè)常規(guī)業(yè)務(wù)運(yùn)營(yíng)所產(chǎn)生的數(shù)據(jù)。Hadoop 集群不僅可被用作廉價(jià)的存儲(chǔ),但也可用于執(zhí)行一些重復(fù)但計(jì)算密集型的數(shù)據(jù)處理任務(wù)(數(shù)據(jù)連接、排序、分割、binning 等等),這能將企業(yè)數(shù)據(jù)倉(cāng)庫(kù)(EDW)從一系列繁重的工作中解脫出來(lái)。

假設(shè) 4:很難找到 Hadoop 人才

作者的話——「盡管 57% 的人認(rèn)為,技術(shù)鴻溝是主要原因,這個(gè)比例也不會(huì)一夜之間發(fā)生改變。這正好與 Indeed 的發(fā)現(xiàn)吻合:他們追蹤了『Hadoop 測(cè)試』崗位情況,2014 年中期,招聘廣告百分比最高為 0.061%,但是,2016 年增至 0.087%,18 個(gè)月里增加了 43%。這些情況可能預(yù)示著,采用 Hadoop 并沒有下降到那些傳聞臆想所暗示的程度,不過(guò),公司也很容易發(fā)現(xiàn)他們很難從公司當(dāng)前團(tuán)隊(duì)的 Hadoop 那里實(shí)現(xiàn)價(jià)值,他們需要更好的專業(yè)技術(shù)人才。」

這個(gè)技術(shù)鴻溝是確實(shí)存在的且主要存在這三個(gè)領(lǐng)域——數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師以及 Hadoop 管理員。不過(guò),這并不是 Hadoop 獨(dú)有的難題,實(shí)際上每種新技術(shù)都會(huì)有這種煩惱。公司要通過(guò)增強(qiáng)內(nèi)部員工的的技能、與全球系統(tǒng)集成商(GSI)、與學(xué)術(shù)界合作來(lái)彌合這個(gè)鴻溝。實(shí)際上,從事大數(shù)據(jù)項(xiàng)目的前景會(huì)吸引人才加入組織。

大型組織該如何啟動(dòng)自己的大數(shù)據(jù)之旅?

避免跌進(jìn)「大數(shù)據(jù)并不帶來(lái)價(jià)值」這個(gè)坑的最佳措施是什么?

以最高級(jí)別推進(jìn)大數(shù)據(jù)以及大數(shù)據(jù)商業(yè)和技術(shù)應(yīng)用的討論。大數(shù)據(jù)需要在最高級(jí)別上成為組織 DNA 的一部分,需要和其他驅(qū)動(dòng)產(chǎn)業(yè)的主要技術(shù)一起加以討論——比如云技術(shù)、移動(dòng)技術(shù)、開發(fā)運(yùn)營(yíng)以及社交、API 等。打造或者組建一支首席數(shù)據(jù)官領(lǐng)導(dǎo)下的團(tuán)隊(duì)。團(tuán)隊(duì)可以是現(xiàn)實(shí)的,也可是虛擬的,但都需要將組織策略納入考慮。建立一個(gè)卓越中心(COE:Center of Excellence)或者類似這樣的聯(lián)合渠道,在這里,中心團(tuán)隊(duì)可以就這些項(xiàng)目與不同的業(yè)務(wù)線合作。作為 COE 的一部分,還要制定一個(gè)采納最新技術(shù)的流程。合適的監(jiān)管和項(xiàng)目監(jiān)督找出那些能驅(qū)動(dòng)大數(shù)據(jù)項(xiàng)目的關(guān)鍵業(yè)務(wù)標(biāo)準(zhǔn),包括對(duì)期望增長(zhǎng)加速、成本削減、風(fēng)險(xiǎn)管理以及實(shí)現(xiàn)競(jìng)爭(zhēng)優(yōu)勢(shì)的詳細(xì)分析。讓業(yè)務(wù)線參與進(jìn)來(lái),以迭代的方式發(fā)展這些能力。幾乎所有成功的大數(shù)據(jù)項(xiàng)目都是以一種開發(fā)運(yùn)營(yíng)的方式得以推進(jìn)的。

總結(jié)

大數(shù)據(jù)生態(tài)系統(tǒng)和 Hadoop 技術(shù)為全球垂直領(lǐng)域的組織提供了一個(gè)成熟、穩(wěn)定和功能豐富的平臺(tái)來(lái)實(shí)施復(fù)雜的數(shù)字化項(xiàng)目。不過(guò),技術(shù)的成熟度僅僅是一個(gè)必要因素。就旨在創(chuàng)新的思維模式而言,組織能力才是驅(qū)動(dòng)內(nèi)部變革的關(guān)鍵力量。因此,在商業(yè)領(lǐng)導(dǎo)、IT 團(tuán)隊(duì)以及內(nèi)部領(lǐng)域?qū)<液凸芾砀鱾€(gè)方面,孕育學(xué)習(xí)的思維模式也很關(guān)鍵。對(duì)于大數(shù)據(jù)來(lái)說(shuō),普世座右銘「一分耕耘一分收獲」更加真實(shí)。盡管很容易將某個(gè)項(xiàng)目的失敗歸咎給一項(xiàng)技術(shù)、某個(gè)公司或者某個(gè)技術(shù)不佳的人員,但是,你應(yīng)該與安于現(xiàn)狀的思維模式作斗爭(zhēng)。確認(rèn)競(jìng)爭(zhēng)沒有停下來(lái)時(shí),你才能安心。

(原標(biāo)題:Hadoop沒有消亡,它是大數(shù)據(jù)的未來(lái))

本文標(biāo)題:Hadoop沒有消亡,它是大數(shù)據(jù)的未來(lái)
網(wǎng)站鏈接:http://muchs.cn/article30/soiepo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供電子商務(wù)、外貿(mào)建站、品牌網(wǎng)站建設(shè)、微信公眾號(hào)、企業(yè)建站、定制網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)