Hadoop生態(tài)圈組件圖

Hadoop生態(tài)圈組件圖

創(chuàng)新互聯(lián)公司是一家專業(yè)提供色尼企業(yè)網(wǎng)站建設(shè),專注與成都網(wǎng)站建設(shè)、成都網(wǎng)站制作、H5頁面制作、小程序制作等業(yè)務(wù)。10年已為色尼眾多企業(yè)、政府機構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)的建站公司優(yōu)惠進行中。

1.Hadoop Common是Hadoop體系最底層的一個模塊,為Hadoop各個子模塊提供各種工具,比如系統(tǒng)配置工具Configuration、遠程調(diào)用RPC、序列化機制和日志操作等等,是其他模塊的基礎(chǔ)。

2.HDFS是Hadoop分布式文件系統(tǒng)縮寫,它是Hadoop的基石。HDFS是一個具備高度容錯性的文件系統(tǒng),適合部署在廉價的機器上,它能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。

3.YARN是統(tǒng)一資源管理和調(diào)度平臺。它解決了上一代Hadoop資源利用率低和不能兼容異構(gòu)的計算框架等多種問題。提供了資源隔離方案和雙調(diào)度器的實現(xiàn)。

4.MapReduce是一種編程模型,利用函數(shù)式編程思想,將對數(shù)據(jù)集的過程分為Map和Reduce兩個階段。MapReduce的這種編程模型非常適合進行分布式計算。Hadoop提供MapReduce的計算框架,實現(xiàn)了這種編程模型,用戶可以通過Java\C++\Python\PHP等多種語言進行編程。

5.Spark是加州伯克利大學(xué)AMP實驗室開發(fā)的新一代計算框架,對迭代計算有很大優(yōu)勢,與MapReduce相比性能提升明顯,并且可以和Yarn集成,并且還提供了SparkSQL組件。

6.HBase來源于Google的Bigtable論文,HBase是一個分布式的,面向列族的開源數(shù)據(jù)庫。采用了Bigtable的數(shù)據(jù)模型--列族。HBase擅長大規(guī)模數(shù)據(jù)的隨機、實時讀寫訪問。

7.Zookeeper作為一個分布式服務(wù)框架,是基于Fast Paxos算法實現(xiàn),解決分布式系統(tǒng)中一致性的問題。提供了配置維護,名字服務(wù),分布式同步,組服務(wù)等。

8.Hive最早是facebook開發(fā)并使用的,是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張表,提供簡單的SQL查詢功能。并將SQL轉(zhuǎn)為MapReduce作業(yè)運行。其有點就是學(xué)習(xí)成本低。降低了Hadoop的使用門檻。

9.Pig與Hive類似,也是對大數(shù)據(jù)集進行分析和評估的工具,不同于Hive的是Pig提供了一種高層的,面向領(lǐng)域的抽象語言Pig Latin.同樣Pig也可以將Pig Latin轉(zhuǎn)化為MapReduce作業(yè)。相比與SQL,Pig Latin更加靈活,但學(xué)習(xí)成本更高。

10.Impala是Cloudera公司開發(fā),可以對存儲HDFS、HBase的海量數(shù)據(jù)提供交互查詢的SQL接口。除了和Hive使用相同的統(tǒng)一存儲平臺,Impala也使用相同的元數(shù)據(jù),SQL語法,ODBC驅(qū)動程序和用戶界面。Impala還提供了一個熟悉的面向批量或者實時查詢的統(tǒng)一平臺。Impala的特點是查詢非常迅速,其性能大幅度領(lǐng)先于Hive。Impala并不是基于MapReduce的,它的定位是OLAP,是Google的新三駕馬車之一Dremel的開源實現(xiàn)。

11.Mahout是一個機器學(xué)習(xí)和數(shù)據(jù)挖掘庫,它利用MapReduce編程模型實現(xiàn)k-means,Native,Bayes,Collaborative Filtering等經(jīng)典的機器學(xué)習(xí)算法,并使其具有良好的可擴展性。

12.Flume是Cloudera提供的一個高可用,高可靠,分布式的海量日志采集、聚合和傳輸系統(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于數(shù)據(jù)收集,同時Flume提供對數(shù)據(jù)進行簡單處理并寫到各個數(shù)據(jù)接收方的能力。

13.Sqoop是SQL to Hadoop的縮寫,主要作用在于結(jié)構(gòu)化的數(shù)據(jù)存儲與Hadoop之間進行數(shù)據(jù)雙向交換,也就是說,Sqoop可以將關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)導(dǎo)入到HDFS、Hive、也可以從HDFS、Hive導(dǎo)出到關(guān)系型數(shù)據(jù)庫中。Sqoop利用了Hadoop的優(yōu)點,整個導(dǎo)入導(dǎo)出都是由MapReduce計算框架實現(xiàn)并行化,非常高效。

14.Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)。具有分布式、高可用的特性,在大數(shù)據(jù)系統(tǒng)里被廣泛使用,如果把大數(shù)據(jù)系統(tǒng)比作一臺機器,那么kafka就是前端總線,它連接了平臺中的各個組件。

還有比如說Storm這樣大數(shù)據(jù)平臺。

分享標(biāo)題:Hadoop生態(tài)圈組件圖
當(dāng)前鏈接:http://muchs.cn/article12/geccgc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設(shè)計公司商城網(wǎng)站、網(wǎng)站建設(shè)域名注冊、定制網(wǎng)站、品牌網(wǎng)站設(shè)計

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

綿陽服務(wù)器托管