這篇文章主要介紹“Hadoop集群技術近年來對大數(shù)據(jù)處理有哪些推動”,在日常操作中,相信很多人在Hadoop集群技術近年來對大數(shù)據(jù)處理有哪些推動問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”Hadoop集群技術近年來對大數(shù)據(jù)處理有哪些推動”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
創(chuàng)新互聯(lián)建站是一家專注于成都做網(wǎng)站、成都網(wǎng)站建設與策劃設計,香河網(wǎng)站建設哪家好?創(chuàng)新互聯(lián)建站做網(wǎng)站,專注于網(wǎng)站建設10年,網(wǎng)設計領域的專業(yè)建站公司;建站業(yè)務涵蓋:香河等地區(qū)。香河做網(wǎng)站價格咨詢:13518219792
1. 引子
什么是大數(shù)據(jù)?麥肯錫公司的報告《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領域》中給出的大數(shù)據(jù)定義是:大數(shù)據(jù)指的是規(guī)模超過現(xiàn)有數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集,并同時強調(diào)并不是超過某個特定數(shù)量級的數(shù)據(jù)集才是大數(shù)據(jù)。
國際數(shù)據(jù)公司(IDC)用四個維度的特征來定義大數(shù)據(jù),即數(shù)據(jù)集的規(guī)模(Volume)、數(shù)據(jù)流動的速度(Velocity)、數(shù)據(jù)類型的多少(Variety)和數(shù)據(jù)價值的大小(Value)。
亞馬遜的大數(shù)據(jù)科學家John Rauser的定義比較直接:“超過單臺計算機處理能力的數(shù)據(jù)量則為大數(shù)據(jù)”。
最后我們來看看維基百科上的大數(shù)據(jù)定義:“Big data is the term for a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications. ”翻譯成中文的意思是:大數(shù)據(jù)指的是數(shù)據(jù)規(guī)模龐大和復雜到難以通過現(xiàn)有的數(shù)據(jù)庫管理工具或者傳統(tǒng)的數(shù)據(jù)處理應用程序進行處理的數(shù)據(jù)集合。
上述大數(shù)據(jù)的概念中無一例外都突出了“大”字。從表面上看,數(shù)據(jù)規(guī)模的增長的確為處理數(shù)據(jù)帶來了很大的問題。具體來說,在同樣時間內(nèi)獲取與以前相同價值的數(shù)據(jù)變得不可為了。換言之,本質(zhì)問題是數(shù)據(jù)的價值密度變低了,數(shù)據(jù)交換速率變慢了,所以催生了很多新型數(shù)據(jù)處理技術和工具,如Google的GFS和MapReduce,Apache Hadoop生態(tài)系統(tǒng),美國伯克利大學AMPLab的Spark等;出現(xiàn)了對時間敏感程度不同的計算模式,如批式計算模式、交互式計算模式、流計算模式、實時計算模式等。計算模式的差異只是決定獲取價值的技術不同,取決于上層業(yè)務需求的不同。實際上,所謂大數(shù)據(jù)問題的本質(zhì)應是數(shù)據(jù)的資產(chǎn)化和服務化,而挖掘數(shù)據(jù)的內(nèi)在價值是研究大數(shù)據(jù)的最終目標。
2. 大數(shù)據(jù)技術源起Google
Google在搜索引擎上所獲得的巨大成功,很大程度上是由于采用了先進的大數(shù)據(jù)管理和處理技術,是針對搜索引擎所面臨的日益膨脹的海量數(shù)據(jù)存儲問題以及在此之上的海量數(shù)據(jù)處理問題而設計的。
Google提出了一整套基于分布式并行集群方式的基礎架構技術,利用軟件的能力來處理集群中經(jīng)常發(fā)生的節(jié)點失效問題。Google使用的大數(shù)據(jù)平臺主要包括五個相互獨立又緊密結合在一起的系統(tǒng):分布式資源管理系統(tǒng)Borg,Google文件系統(tǒng)(GFS),針對Google應用程序的特點提出的MapReduce 編程模式,分布式的鎖機制Chubby以及大規(guī)模分布式數(shù)據(jù)庫BigTable。
Borg是這五個系統(tǒng)中最為神秘的一個,直到2015年Google才在EuroSys 2015上發(fā)表了題為“Large-scale cluster management at Google with Borg”的論文。稱Google內(nèi)部不僅像計算型的應用,比如MapReduce、Pregel等運行在Borg上,存儲類的應用,比如GFS,BigTable和Megastore等也運行在上面,真正做到了批處理作業(yè)和長周期服務的混合部署和資源動態(tài)調(diào)度。得益于此項技術,可以使平均資源利用率達到30%~75%以上,大大高于業(yè)界平均水平的6%~12%。
GFS是一個大型的分布式文件系統(tǒng),它為Google云計算提供海量存儲,并且與Chubby、MapReduce和BigTable等技術結合得十分緊密,處于系統(tǒng)的底層。它的設計受到Google特殊的應用負載和技術環(huán)境的影響。相對于傳統(tǒng)的分布式文件系統(tǒng),為了達到成本、可靠性和性能的最佳平衡,GFS從多個方面進行了簡化。
MapReduce是處理海量數(shù)據(jù)的并行編程模式,用于大規(guī)模數(shù)據(jù)集的并行運算。MapReduce通過“Map(映射)”和“Reduce(化簡)”這樣兩個簡單的概念來參加運算。用戶只需要提供自己的Map 函數(shù)以及Reduce 函數(shù)就可以在集群上進行大規(guī)模的分布式數(shù)據(jù)處理。這一編程環(huán)境能夠使程序設計人員編寫大規(guī)模的并行應用程序時不用考慮集群的可靠性、可擴展性等問題。應用程序編寫人員只需要將精力放在應用程序本身,關于集群的處理問題則交由平臺來完成。與傳統(tǒng)的分布式程序設計相比,MapReduce封裝了并行處理、容錯處理、本地化計算、負載均衡等細節(jié),具有簡單而強大的接口。正是由于MapReduce具有函數(shù)式編程語言和矢量編程語言的共性,使得這種編程模式特別適合于非結構化和結構化的海量數(shù)據(jù)的搜索、挖掘、分析等應用。
Chubby是提供粗粒度鎖服務的一個文件系統(tǒng),它基于松耦合分布式文件系統(tǒng),解決了分布式系統(tǒng)的一致性問題。這種鎖只是一個建議性的鎖而不是強制性的鎖。通過使用Chubby的鎖服務,用戶可以確保數(shù)據(jù)操作過程中的一致性。GFS使用Chubby來選取一個GFS主服務器,BigTable使用Chubby指定一個主服務器并發(fā)現(xiàn)、控制與其相關的子表服務器。
大規(guī)模分布式數(shù)據(jù)庫BigTable是基于GFS和Chubby開發(fā)的分布式存儲系統(tǒng)。很多應用程序?qū)τ跀?shù)據(jù)的組織是非常有規(guī)則的。一般來說,數(shù)據(jù)庫對于處理格式化的數(shù)據(jù)還是非常方便的。但是由于關系數(shù)據(jù)庫要求很強的一致性,很難將其擴展到很大的規(guī)模。為了處理Google內(nèi)部大量的格式化以及半格式化數(shù)據(jù),Google構建了弱一致性要求的大規(guī)模數(shù)據(jù)庫系統(tǒng)BigTable。BigTablede在很多方面和數(shù)據(jù)庫類似,但它并不是真正意義上的數(shù)據(jù)庫。Google包括Web索引、衛(wèi)星圖像數(shù)據(jù)等在內(nèi)的很多海量結構化和半結構化數(shù)據(jù)都是存儲在BigTable中的。
3. Hadoop開啟了大數(shù)據(jù)時代的大門
Google的技術雖好但不開源。如果沒有Doug Cutting和他的Hadoop開源軟件,我們就看不到如今大數(shù)據(jù)技術和應用的飛速發(fā)展。Doug Cutting主導的Apache Nutch項目是Hadoop軟件的源頭,該項目始于2002年,是Apache Lucene 的子項目之一。當時的系統(tǒng)架構尚無法擴展到存儲并處理擁有數(shù)十億網(wǎng)頁的網(wǎng)絡化數(shù)據(jù)。Google在2003年于SOSP上公開了描述其分布式文件系統(tǒng)的論文“The Google File System”,為Nutch提供了及時的幫助。2004年,Nutch的分布式文件系統(tǒng)(NDFS)開始開發(fā)。同年,Google在OSDI上發(fā)表了題為“MapReduce: Simplified Data Processing on Large Clusters”的論文,受到啟發(fā)的Doug Cutting等人開始實現(xiàn)MapReduce計算框架并與NDFS(Nutch Distributed File System)結合起來,共同支持Nutch的主要算法。至2006年,它逐漸成為一套完整而獨立的軟件,已經(jīng)到Yahoo!工作的Doug Cutting將這套大數(shù)據(jù)處理軟件命名為Hadoop。2008年初,Hadoop成為Apache的頂級項目,除Yahoo!之外在眾多互聯(lián)網(wǎng)企業(yè)中得到應用。
早期的Hadoop,包括Hadoop v1以及更早之前的版本,主要由兩個核心組件構成:HDFS和MapReduce,其中HDFS是Google GFS的開源版本,MapReduce計算框架實現(xiàn)了由Google工程師提出的MapReduce編程模型。還有一些圍繞在Hadoop周圍的開源項目,為完善大數(shù)據(jù)處理的全生命周期提供了必要的配套和補充。這些軟件常用的有ZooKeeper、Hive、Pig、HBase、Storm、Kafka、Flume、Sqoop、Oozie、Mahout等。2012年5月,Hadoop v2的alpha版本發(fā)布,其中最重要的變化是在Hadoop核心組件中增加了YARN(Yet Another Resource Negotiator)。YARN的出現(xiàn)是為了把計算框架與資源管理徹底分離開,解決Hadoop v1由此帶來的擴展性差、單點故障和不能同時支持多種計算框架的問題。YARN對標的恰好就是Google的Borg系統(tǒng)。至此,Hadoop方才能夠與Google的大數(shù)據(jù)平臺比肩。
一個好的、有生命力的開源生態(tài)系統(tǒng)要有一個核心,這個核心要是差異化和非平凡的,還要有廣泛的應用和活躍的社區(qū)。Hadoop恰好具備這三個特征,以Hadoop為核心的大數(shù)據(jù)開源生態(tài)系統(tǒng)逐漸形成,Hadoop也成為自Linux以來最成功的開源軟件,沒有之一。受人民大學信息學院院長杜小勇老師的委托,我在CNCC 2015上組織了一個名為“大數(shù)據(jù)開源生態(tài)系統(tǒng)”的論壇。論壇邀請了來自互聯(lián)網(wǎng)企業(yè)、硬件廠商、系統(tǒng)集成商以及學術界的同行分享在大數(shù)據(jù)開源方面的工作和體會。在最后的Panel環(huán)節(jié),討論了為什么要做開源和怎么做開源這兩個問題?;卮鹗潜容^分散的,有開源是唯一選擇的,有拉通產(chǎn)業(yè)鏈的,有認為開源是新業(yè)態(tài)新商業(yè)模式的,有認為開源促進技術進步的??傊?,在產(chǎn)業(yè)鏈不同的環(huán)節(jié)上的機構做開源的動機和目標自然是不同的,但只有這樣,產(chǎn)業(yè)鏈中不同角色都能夠在生態(tài)系統(tǒng)中找到自己的位置,這樣的生態(tài)系統(tǒng)才是健壯的有生命力的,不是嗎?
4. Hadoop的發(fā)展歷史和應用之路
大數(shù)據(jù)領域第一個吃螃蟹的是互聯(lián)網(wǎng)行業(yè)。這是因為大數(shù)據(jù)概念和技術都來源于互聯(lián)網(wǎng)企業(yè)的老大哥Google的原因。以Hadoop投入實際應用來看:
從2006年到2008年是Hadoop的誕生階段。只有國外少數(shù)幾個互聯(lián)網(wǎng)巨頭在嘗試,國內(nèi)互聯(lián)網(wǎng)行業(yè)在學習這項新技術。2006年,Yahoo!構建100節(jié)點規(guī)模的Hadoop機群用于Webmap業(yè)務。2007年,Yahoo!構建1000節(jié)點規(guī)模的Hadoop機群。2008年,Yahoo!的Hadoop機群擴展到2000節(jié)點規(guī)模,F(xiàn)acebook貢獻Hive項目到開源社區(qū)。
從2008年到2010年是Hadoop的少年階段。在互聯(lián)網(wǎng)行業(yè)已經(jīng)開始投入實際應用,應用集中在網(wǎng)頁存儲檢索,日志處理和用戶行為分析等方面。2009年,Yahoo!使用4000節(jié)點的機群運行Hadoop,支持廣告系統(tǒng)和Web搜索的研究;Facebook使用600節(jié)點的機群運行 Hadoop,存儲內(nèi)部日志數(shù)據(jù),支持其上的數(shù)據(jù)分析和機器學習;百度用Hadoop處理每周200TB的數(shù)據(jù),進行搜索日志分析和網(wǎng)頁數(shù)據(jù)挖掘工作。2010年,F(xiàn)acebook的Hadoop機群擴展到1000節(jié)點;百度用Hadoop每天可處理1PB的數(shù)據(jù);中國移動通信研究院基于Hadoop開發(fā)了“大云”(BigCloud)系統(tǒng),不但用于相關數(shù)據(jù)分析,還對外提供服務;淘寶的Hadoop系統(tǒng)達到千臺規(guī)模,用于存儲并處理電子商務的交易相關數(shù)據(jù)。
從2010年到2015年是Hadoop的青年階段。在互聯(lián)網(wǎng)行業(yè)無不將Hadoop作為大數(shù)據(jù)計算的標準配置,且應用形式趨于多樣化;企業(yè)計算領域開始實踐基于Hadoop的大數(shù)據(jù)應用;在追求大數(shù)據(jù)處理能力的同時,也開始思考系統(tǒng)適配性和效率問題。互聯(lián)網(wǎng)行業(yè)出現(xiàn)了大量數(shù)據(jù)分析類應用,比如支付寶的交易數(shù)據(jù)離線分析系統(tǒng)等;用Hadoop與生態(tài)系統(tǒng)中的其他軟件一起構成更為復雜的應用系統(tǒng),比如騰訊的廣點通精準廣告投放系統(tǒng),電信運營商的基于用戶畫像的精準營銷系統(tǒng)等。除互聯(lián)網(wǎng)行業(yè)外,出現(xiàn)了網(wǎng)絡通訊大數(shù)據(jù)、金融大數(shù)據(jù)、交通旅游大數(shù)據(jù)、工業(yè)制造大數(shù)據(jù)、醫(yī)療健康大數(shù)據(jù)、社會治理大數(shù)據(jù)、教育大數(shù)據(jù)等,大數(shù)據(jù)理念和技術已經(jīng)融入各行各業(yè)。Hadoop源于互聯(lián)網(wǎng)行業(yè),在應用于企業(yè)計算時,需要進行適配,原因在于互聯(lián)網(wǎng)應用和企業(yè)計算應用在需求、服務、研發(fā)和運維體系方面有本質(zhì)的不同?;ヂ?lián)網(wǎng)應用業(yè)務邏輯簡單、服務于海量用戶、非固定使用人群、系統(tǒng)的用戶體驗至上、持續(xù)交付、能夠快速響應的專業(yè)運維;而企業(yè)計算應用業(yè)務邏輯復雜、有限數(shù)量用戶、固定使用人群、系統(tǒng)更強調(diào)穩(wěn)定可靠、版本交付、層級式的技術支持。一時間市面上出現(xiàn)了很多面向企業(yè)用戶的Hadoop發(fā)行版,以易部署、好配置,以及使用和管理方便為切入點,吸引著企業(yè)用戶的眼球。
5.大數(shù)據(jù)技術的發(fā)展趨勢
系統(tǒng)架構的專業(yè)化。從當今IT技術的發(fā)展角度看,提出系統(tǒng)結構上的解決方案是“應用驅(qū)動的大數(shù)據(jù)架構與技術”。也就是說根據(jù)具體類型應用的需求,在系統(tǒng)架構和關鍵技術上進行創(chuàng)新。為了降低成本并獲得更好的能效,大數(shù)據(jù)應用系統(tǒng)越來越趨向扁平化、專用化的系統(tǒng)架構和數(shù)據(jù)處理技術,逐漸擺脫了傳統(tǒng)的通用技術體系。比如并行數(shù)據(jù)庫更鮮明的分化為面向事務處理的OLTP類數(shù)據(jù)庫和面向分析的OLAP類數(shù)據(jù)庫等。傳統(tǒng)的應用服務器、數(shù)據(jù)庫服務器和存儲服務器這樣的典型三層架構受到極大的沖擊。應用開發(fā)人員更深入的理解計算機系統(tǒng)結構,“程序” = “算法” + “數(shù)據(jù)結構”將逐漸演變成“程序” = “算法” + “數(shù)據(jù)結構” + “系統(tǒng)結構”。
大數(shù)據(jù)生態(tài)系統(tǒng)范圍擴大??寺×薌oogle的GFS和MapReduce的Apache Hadoop自2008年以來逐漸為互聯(lián)網(wǎng)企業(yè)接納,并成為大數(shù)據(jù)處理領域的事實標準。但2013年出現(xiàn)的Spark作為一匹黑馬可以說終結了這一神話,大數(shù)據(jù)技術不再一家獨大。由于應用不同導致Hadoop一套軟件系統(tǒng)不可能滿足所有需求,在全面兼容Hadoop的基礎上,Spark通過更多的利用內(nèi)存處理大幅提高系統(tǒng)性能。此外,Scribe、Flume、Kafka、Storm、Drill、Impala、TEZ/Stinger、Presto、Spark/Spark SQL等的出現(xiàn)并不是取代Hadoop,而是擴大了大數(shù)據(jù)技術生態(tài)環(huán)境,促使生態(tài)環(huán)境向良性和完整發(fā)展。今后在非易失存儲層次、網(wǎng)絡通信層次、易失存儲層次和計算框架層次還會出現(xiàn)更多、更好和更專用化的軟件系統(tǒng)。
系統(tǒng)整體效能更為用戶重視。在全球互聯(lián)網(wǎng)企業(yè)的努力下,Hadoop已經(jīng)可以處理百PB級的數(shù)據(jù),在不考慮時間維度的前提下,價值密度低的數(shù)據(jù)可以處理了。在解決了傳統(tǒng)關系型數(shù)據(jù)庫技術無法處理如此量級的數(shù)據(jù)之后,業(yè)界正在向系統(tǒng)能效要價值。能效問題一方面體現(xiàn)在系統(tǒng)性能上。互聯(lián)網(wǎng)服務強調(diào)用戶體驗,原本做不到實時的應用在向?qū)崟r化靠攏,比如前端系統(tǒng)及業(yè)務日志從產(chǎn)生到收集入庫的延遲從1到2天時間進化到10秒以內(nèi)。傳統(tǒng)企業(yè)無法忍受關系數(shù)據(jù)庫動輒幾十分鐘的查詢分析性能,紛紛求助于性價比更好的技術和產(chǎn)品。這些需求使大數(shù)據(jù)交互式查詢分析、流式計算、內(nèi)存計算成為業(yè)界研發(fā)和應用的新方向。能效問題的另一方面體現(xiàn)在系統(tǒng)功耗和成本上。中科院計算所陳云霽研究員領導研究的專用神經(jīng)網(wǎng)絡處理器技術,可大幅加速機器學習負載,與通用芯片和GPU相比,計算速度提高幾十倍,功耗只有十分之一,整體能效提高450倍。百度云存儲萬臺定制ARM服務器可節(jié)電約25%,存儲密度提升70%,每瓦特計算能力提升34倍(用GPU取代CPU計算),每GB存儲成本降低50%。
個性化服務的需求愈發(fā)強烈。個性化對應于互聯(lián)網(wǎng)服務的長尾部分,這部分需求在傳統(tǒng)的系統(tǒng)設計中因為復雜性原因是被舍棄的,但正是這部分體現(xiàn)出個性化服務的需求。個性化服務,即系統(tǒng)能夠提供滿足不同個體需求的差異化服務,比如個性化推薦,廣告精準投放等。就拿個性化推薦技術來說,目前已經(jīng)開始從簡單的商品推薦走向復雜的內(nèi)容推薦。根據(jù)用戶的特性與偏好,推薦內(nèi)容的特征,以及當時的上下文數(shù)據(jù)(客戶端設備類型、用戶所處時空數(shù)據(jù)等),向特定用戶提供個性化的內(nèi)容推薦服務,內(nèi)容包括商品(包括電商和零售)、廣告、新聞和資訊等。在移動設備和移動互聯(lián)網(wǎng)飛速發(fā)展的時代,個性化推薦將成為用戶獲取信息最直接的渠道之一。
價值挖掘的理論和技術亟待發(fā)展。對數(shù)據(jù)進行淺層分析的理論和技術,主要體現(xiàn)在分布式系統(tǒng)和關系型數(shù)據(jù)庫理論的結合與再創(chuàng)新,目前已經(jīng)有較大幅度進展。但是,從數(shù)據(jù)中抽取隱含的信息或者知識,也就是價值挖掘,這方面的理論和技術還比較缺乏。一是缺乏成熟的數(shù)據(jù)挖掘建模方法和工具,經(jīng)驗對于挖掘出有價值信息的影響甚大,原始數(shù)據(jù)與隱含信息之間存在技術缺失,所以“啤酒+尿布”的案例并不是天天都能產(chǎn)生的。二是機器學習和深度學習技術面臨應用問題。與大數(shù)據(jù)相結合,已經(jīng)在諸如語音識別、圖像識別、廣告推薦和風險控制等場景中得以初步應用,但這方面的技術和軟件工具成熟度不高,還有很大提升空間。此外,機器學習和深度學習的應用場景還不夠廣泛,這既是機遇也是挑戰(zhàn)。
6. 結語
Hadoop開源軟件自2006年起至今已經(jīng)走過十個年頭,這對于任何軟件來說生命周期不可謂不長。但是,Hadoop也在經(jīng)歷來自其他開源黑馬的沖擊。Spark在早期發(fā)展階段通過全面兼容Hadoop而借力于后者成熟的生態(tài)系統(tǒng)。時至今日,Spark正在挑戰(zhàn)Hadoop的權威,因為Spark已經(jīng)將發(fā)展目標定位在取代Hadoop。Hadoop老矣,尚能飯否? Hadoop的近100位Committer在積極的為Hadoop謀劃未來,讓我們拭目以待吧!我們已經(jīng)步入數(shù)據(jù)化全覆蓋的時代,社會生活、各行各業(yè)都在因數(shù)據(jù)而發(fā)生巨變。近年來,大數(shù)據(jù)已成為國家層面的基礎性戰(zhàn)略資源,正日益對全球生產(chǎn)、流通、分配、消費活動以及經(jīng)濟運行機制、社會生活方式和國家治理能力產(chǎn)生重要影響。推動大數(shù)據(jù)發(fā)展已成為國際社會的行動共識。
到此,關于“Hadoop集群技術近年來對大數(shù)據(jù)處理有哪些推動”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續(xù)學習更多相關知識,請繼續(xù)關注創(chuàng)新互聯(lián)網(wǎng)站,小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>
分享文章:Hadoop集群技術近年來對大數(shù)據(jù)處理有哪些推動
URL分享:http://muchs.cn/article12/gjsggc.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站導航、網(wǎng)站改版、網(wǎng)站制作、動態(tài)網(wǎng)站、服務器托管、域名注冊
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)