大數(shù)據(jù)架構(gòu)面臨技術(shù)集成的巨大障礙

企業(yè)可以利用Hadoop以及所有與它相關(guān)的技術(shù)設(shè)計(jì)大數(shù)據(jù)環(huán)境,以滿足其特定的需求。但把所有的技術(shù)集成在一起并不是一件容易的事。

創(chuàng)新互聯(lián)建站成立于2013年,先為喀左等服務(wù)建站,喀左等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢(xún)服務(wù)。為喀左企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問(wèn)題。

IT團(tuán)隊(duì)尋求構(gòu)建大數(shù)據(jù)架構(gòu)時(shí)有大量的技術(shù)可供選擇,他們可以混合搭配各種技術(shù)以滿足數(shù)據(jù)處理和分析需求。但是有一個(gè)問(wèn)題存在:把所有需要的技術(shù)框架組合到一起是一項(xiàng)艱巨的任務(wù)。

在不斷擴(kuò)展的Hadoop生態(tài)系統(tǒng)中,選擇和部署合適的大數(shù)據(jù)技術(shù)是一個(gè)長(zhǎng)期反復(fù)的過(guò)程,周期要以年計(jì)。除非公司管理者愿花大量財(cái)力和資源來(lái)加速推動(dòng)項(xiàng)目。選擇技術(shù)的過(guò)程中有失誤判斷是很常見(jiàn)的,一家公司的架構(gòu)藍(lán)圖不一定適用于另一家組織,即便是完全相同的行業(yè)也不行。

Bryan Lari是美國(guó)德克薩斯州大學(xué)MD安德森癌癥研究中心(位于休斯頓)研究分析主任,他說(shuō):“我經(jīng)常跟人說(shuō),這不是像你在亞馬遜下個(gè)訂單或者從蘋(píng)果商店買(mǎi)個(gè)東西那么簡(jiǎn)單的事。這是一件復(fù)雜的事,它需要一個(gè)過(guò)程。我們?cè)诎肽昊蛘咭荒曛畠?nèi)是做不完的。這也不是可以套用公式就能應(yīng)用的技術(shù),盡管有很多案例或者用戶有成功經(jīng)驗(yàn),但我們也可能用不同的工具來(lái)滿足我們的需求。”

MD安德森的大數(shù)據(jù)環(huán)境集中在Hadoop集群中,在三月份的時(shí)候投入了生產(chǎn)環(huán)境,初步打算用來(lái)處理病人房間監(jiān)視設(shè)備傳輸回來(lái)的重要信號(hào)數(shù)據(jù)。不過(guò),數(shù)據(jù)湖平臺(tái)還包括HBase(與Hadoop配合的NoSQL數(shù)據(jù)庫(kù)),Hive(Hadoop支持SQL的軟件),還有各種其他Apache開(kāi)源技術(shù),例如:Pig、Sqoop、Oozie和Zookeeper。此外,這家癌癥治療和研究組織還部署了Oracle數(shù)據(jù)倉(cāng)庫(kù)作為信息庫(kù)來(lái)支持分析和報(bào)表應(yīng)用,還有IBM的Watson認(rèn)知計(jì)算系統(tǒng)提供自然語(yǔ)言處理和機(jī)器學(xué)習(xí)功能。未來(lái)出現(xiàn)新的數(shù)據(jù)可視化、治理和安全工具也必然會(huì)參與進(jìn)來(lái)。

MD安德森癌癥中心的IT團(tuán)隊(duì)在2015年初就開(kāi)始使用Hadoop。為了演示可能的應(yīng)用情況同時(shí)熟悉該技術(shù),該中心首先使用基本的Apache Hadoop軟件構(gòu)建了試點(diǎn)集群環(huán)境。后來(lái),他們部署了Hadoop Hortonworks分布式架構(gòu)用于生產(chǎn)環(huán)境。

Vamshi Punugoti是MD安德森癌癥中興研究信息系統(tǒng)的副主任,他說(shuō)從這次試點(diǎn)項(xiàng)目中得到的經(jīng)驗(yàn)可以使他們處理架構(gòu)調(diào)整更容易。隨著新的大數(shù)據(jù)工具出現(xiàn),總會(huì)有調(diào)整架構(gòu)的可能性,一定需要功能增強(qiáng)或者替換組件。Punugoti說(shuō):“這是個(gè)持續(xù)更新的過(guò)程,包括我們收集到的數(shù)據(jù)都在不斷變化著。如果我們認(rèn)為(現(xiàn)有架構(gòu))可以處理一切那就太天真了。”

演進(jìn)更好的架構(gòu)

Uber平臺(tái)工程師團(tuán)隊(duì)花了大約一年時(shí)間設(shè)計(jì)了多層大數(shù)據(jù)架構(gòu),但是這么多技術(shù)組件搭建的有點(diǎn)倉(cāng)促。Uber公司Hadoop團(tuán)隊(duì)高級(jí)工程師Vinoth Chandar說(shuō),該公司的現(xiàn)有系統(tǒng)跟不上業(yè)務(wù)運(yùn)營(yíng)帶來(lái)的快速增長(zhǎng)的數(shù)據(jù)量。結(jié)果,大部分?jǐn)?shù)據(jù)不能進(jìn)行實(shí)時(shí)分析,Chandar認(rèn)為這對(duì)于Uber公司倡導(dǎo)實(shí)質(zhì)性“實(shí)時(shí)叫車(chē)”理念來(lái)說(shuō)是個(gè)大問(wèn)題。

為了幫助運(yùn)營(yíng)經(jīng)理實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng),Chandar和他的同事們搭建了Hadoop數(shù)據(jù)湖環(huán)境,其中包括HBase、Hive、Spark處理引擎、Kafka消息隊(duì)列系統(tǒng),還有其它一些技術(shù)。其中一些技術(shù)是內(nèi)部構(gòu)建的,例如:有一款數(shù)據(jù)提取工具Streamific。

有了該架構(gòu)之后,Uber公司將追趕大數(shù)據(jù)和分析的藝術(shù)狀態(tài)。但是,這并不是容易做到的。他半開(kāi)玩笑地補(bǔ)充說(shuō):“為了把這些技術(shù)組件整合到一起,我們十個(gè)人幾乎一年沒(méi)有睡覺(jué)。”

架構(gòu)的挑戰(zhàn)對(duì)于組織來(lái)說(shuō)可不是鬧著玩的。Gartner咨詢(xún)公司預(yù)測(cè),到2018年,70%的Hadoop部署將無(wú)法實(shí)現(xiàn)他們節(jié)約成本和收入增長(zhǎng)的目標(biāo),主要原因是技能不足和技術(shù)整合困難。Gartner公司分析師Merv Adrian說(shuō),整合障礙還在加劇,Hadoop分發(fā)商與大數(shù)據(jù)技術(shù)有關(guān)的數(shù)字還在穩(wěn)步攀升,這代表了部署Hadoop的公司對(duì)Hadoop技術(shù)支持的需求量趨勢(shì)。

在2016年太平洋西北地區(qū)BI峰會(huì)上,Adrian列舉了46種Hadoop相關(guān)的開(kāi)源技術(shù)創(chuàng)新,這些產(chǎn)品都是由一家或者多家分發(fā)商提供支持服務(wù)的。但是,要把這些組件放到大數(shù)據(jù)架構(gòu)中卻是留給使用方的工作。“大多數(shù)Hadoop項(xiàng)目都像是藝術(shù)工作,我們都要把這些技術(shù)組件整合到一起使用。”

執(zhí)行過(guò)程中的變化

這種整合拼湊工作是非常艱巨的任務(wù),即便Hadoop不是框架中的一部分。Celtra公司提供了一個(gè)平臺(tái)可以設(shè)計(jì)在線顯示和視頻廣告,有幾部分已經(jīng)在基于云的處理架構(gòu)中陸續(xù)部署了,現(xiàn)在正把Spark及其SQL模塊整合到Amazon簡(jiǎn)單存儲(chǔ)服務(wù)(S3)、MySQL關(guān)系型數(shù)據(jù)庫(kù)和Snowflake計(jì)算的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。

Grega Kespret是這家波士頓公司的分析總監(jiān),他說(shuō):“我們經(jīng)歷了許多嘗試和錯(cuò)誤。比較有挑戰(zhàn)的是要設(shè)計(jì)一套架構(gòu)滿足業(yè)務(wù)需求,但還不能過(guò)度設(shè)計(jì)。”他提醒說(shuō),如果你做了,可能會(huì)以一片混亂而告終。

最開(kāi)始的時(shí)候,Celtra公司通過(guò)網(wǎng)站訪問(wèn)者和S3中的其它可跟蹤事件收集廣告交互數(shù)據(jù),然后使用Spark作為ETL引擎(抽取、轉(zhuǎn)換和加載)聚合信息,分析MySQL中的運(yùn)營(yíng)數(shù)據(jù)用于報(bào)表。但是,原始的事件數(shù)據(jù)是很難分析的。Celtra公司增加了一套獨(dú)立的基于Spark的分析系統(tǒng),但是仍然需要該公司的數(shù)據(jù)分析師們團(tuán)結(jié)一致去清理和驗(yàn)證事件數(shù)據(jù),這個(gè)過(guò)程的工作是很容易出錯(cuò)的。

在2015年底的時(shí)候,Kespret和他的團(tuán)隊(duì)經(jīng)過(guò)各種嘗試最終放棄了其它技術(shù),選擇了Snowflake作為事件數(shù)據(jù)存儲(chǔ)系統(tǒng),然后把數(shù)據(jù)按用戶會(huì)話進(jìn)行組織之后會(huì)存儲(chǔ)到MySQL,這樣數(shù)據(jù)分析師用起來(lái)更方便。

Snowflake系統(tǒng)在去年四月份投入生產(chǎn)使用,比該軟件軟發(fā)布較早一點(diǎn)。Kespret說(shuō),下一步是要在Snowflake中存儲(chǔ)數(shù)據(jù),評(píng)估第二步ETL過(guò)程,然后處理數(shù)據(jù)存儲(chǔ)到另一套MySQL數(shù)據(jù)庫(kù)中。

大數(shù)據(jù)開(kāi)發(fā)的“狂野西部日”

Hadoop合作設(shè)計(jì)者Doug Cutting認(rèn)為,技術(shù)選擇方案過(guò)多導(dǎo)致了構(gòu)建大數(shù)據(jù)架構(gòu)過(guò)程的復(fù)雜化。對(duì)于許多希望利用Hadoop及其同生技術(shù)的用戶組織,“這真像是狂野西部時(shí)期的泡沫”。Cutting現(xiàn)在是Hadoop供應(yīng)商Cloudera公司的首席架構(gòu)師。

不過(guò)Cutting認(rèn)為,大數(shù)據(jù)系統(tǒng)的益處也正體現(xiàn)于此——這種多樣性帶來(lái)了架構(gòu)靈活性,支持各種新的分析應(yīng)用,而且IT成本更低。因此,費(fèi)一番周折實(shí)現(xiàn)集成也是值得的。他認(rèn)為大多數(shù)問(wèn)題是因?yàn)閷?duì)這些開(kāi)源軟件的開(kāi)發(fā)和部署流程不熟悉引起的。他說(shuō):“Hadoop很快就不會(huì)令人生畏,人們會(huì)習(xí)慣使用它的。”

或許是這樣吧,不過(guò)雅虎公司(據(jù)聲稱(chēng)是大的Hadoop用戶群)的IT經(jīng)理們表示,他們并沒(méi)有完全消除壓力。Cutting曾在雅虎總部工作(位于美國(guó)加州Sunnyvale),那時(shí)候Hadoop在2006年剛啟動(dòng)。雅虎這家web搜索和互聯(lián)網(wǎng)服務(wù)公司是該技術(shù)的第一家生產(chǎn)環(huán)境用戶。目前,該公司(雅虎)的大數(shù)據(jù)環(huán)境有40個(gè)集群,混雜了HBase、Spark、Storm實(shí)時(shí)處理引擎和其它Hadoop相關(guān)技術(shù)。

Sumeet Singh是雅虎公司負(fù)責(zé)云計(jì)算和大數(shù)據(jù)平臺(tái)產(chǎn)品開(kāi)發(fā)的高級(jí)總監(jiān)。他說(shuō),總的來(lái)說(shuō),圍繞Hadoop建立的巨大技術(shù)生態(tài)體系對(duì)用戶是有利的。Singh表示,Hadoop這個(gè)開(kāi)源框架加速了技術(shù)開(kāi)發(fā)的步伐,使IT團(tuán)隊(duì)可以集中精力規(guī)劃和創(chuàng)造對(duì)他們公司有用的工具,而不必自己完成所有工作。“我知道有許多開(kāi)源項(xiàng)目,不過(guò)不是每個(gè)人都能廣泛接觸采納,這其中會(huì)有真正明確獲益的贏家。”

大數(shù)據(jù)的世界并不總是陽(yáng)光明媚的,Singh說(shuō):“總會(huì)有各種問(wèn)題隨之而來(lái)”,他的頭腦快要被各種開(kāi)源框架和大數(shù)據(jù)框架涉及的數(shù)不清的技術(shù)撐爆了。

網(wǎng)站標(biāo)題:大數(shù)據(jù)架構(gòu)面臨技術(shù)集成的巨大障礙
網(wǎng)站地址:http://muchs.cn/article40/soioeo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供用戶體驗(yàn)、網(wǎng)站策劃、網(wǎng)站內(nèi)鏈、外貿(mào)建站小程序開(kāi)發(fā)、建站公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

搜索引擎優(yōu)化