Hadoop基礎知識有哪些

這篇文章主要為大家展示了“Hadoop基礎知識有哪些”，內(nèi)容簡而易懂，條理清晰，希望能夠幫助大家解決疑惑，下面讓小編帶領大家一起研究并學習一下“Hadoop基礎知識有哪些”這篇文章吧。

成都創(chuàng)新互聯(lián)公司是工信部頒發(fā)資質(zhì)IDC服務器商，為用戶提供優(yōu)質(zhì)的IDC機房托管服務

Hadoop概述

Hadoop這個單詞本身并沒有什么特殊的含義，而只是其作者Doug Cutting孩子的一個棕黃色的大象玩具的名字。

Hadoop是一個高可靠的(reliable)，規(guī)?？蓴U展的(scalable)，分布式(distributed computing)的開源軟件框架。它使我們能用一種簡單的編程模型來處理存儲于集群上的大數(shù)據(jù)集。

Hadoop是Apache基金會的一個開源項目，是一個提供了分布式存儲和分布式計算功能的基礎架構(gòu)平臺。可以應用于企業(yè)中的數(shù)據(jù)存儲，日志分析，商業(yè)智能，數(shù)據(jù)挖掘等。

hadoop核心組件

1. hadoop包含的模塊：

Hadoop common：提供一些通用的功能支持其他hadoop模塊。
Hadoop Distributed File System：即分布式文件系統(tǒng)，簡稱HDFS。主要用來做數(shù)據(jù)存儲，并提供對應用數(shù)據(jù)高吞吐量的訪問。
Hadoop Yarn：用于作業(yè)調(diào)度和集群資源管理的框架。
Hadoop MapReduce：基于yarn的，能用來并行處理大數(shù)據(jù)集的計算框架。

2. HDFS：
HDFS是谷歌GFS的一個開源實現(xiàn)，具有擴展性，容錯性，海量數(shù)據(jù)存儲的特點：

擴展性，主要指很容易就可以在當前的集群上增加一臺或者多臺機器，擴展計算資源。
容錯性，主要指其多副本的存儲機制。HDFS將文件切分成固定大小的block(默認是128M)，并以多副本形式存儲在多臺機器上，當其中一臺機器發(fā)生故障，仍然有其他副本供我們使用。但這個容錯并不是絕對的，當所有節(jié)點都發(fā)生故障，文件就會丟失，不過這樣的概率較小。
海量數(shù)據(jù)存儲：多臺機器構(gòu)成了一個集群，相對單機能存儲更多量的數(shù)據(jù)。這也是Hadoop解決的最主要問題之一。

數(shù)據(jù)切分，多副本，容錯等機制都是Hadoop底層已經(jīng)設計好的，對用戶透明，用戶不需要關系細節(jié)。只需要按照對單機文件的操作方式，就可以進行分布式文件的操作。如文件的上傳，查看，下載等。

多副本存儲示例：

以part-1為例進行說明，它被分成三個block，block_id分別是2，4，5，且副本系數(shù)為3?？梢钥吹皆贒ataNode上，2，4，5都各存儲在了三個節(jié)點上，這樣當其中一個節(jié)點故障時，仍然能夠保證文件的可用。block_id存在的必要性在于，在用戶需要對文件進行操作時，相應的block能夠按順序進行“組合”起來。

3. YARN：
Yarn的全稱是Yet Another Resource Negotiator，負責整個集群資源的管理和調(diào)度。例如對每個作業(yè)，分配CPU，內(nèi)存等等，都由yarn來管理。它的特點是擴展性，容錯性，多框架資源統(tǒng)一調(diào)度。
擴展性和HDFS的擴展性類似，yarn也很容易擴展其計算資源。
容錯性，主要是指當某個任務出現(xiàn)異常，yarn會對其進行一定次數(shù)的重試。
多框架資源統(tǒng)一調(diào)度，這個是相對于hadoop1.0版本的一個優(yōu)勢。區(qū)別于hadoop1.0只支持MapReduce作業(yè)。而yarn之上可以運行不同類型的作業(yè)。如下圖所示，很多應用都可以運行在yarn之上，由yarn統(tǒng)一進行調(diào)度。

4. mapreduce：
是一個分布式計算框架，是GoogleMapReduce的克隆版。和HDFS、Yarn類似，也具有擴展性和容錯性的特點，還將具有海量數(shù)據(jù)離線處理的特點：能夠處理的數(shù)據(jù)量大，但并不是實時處理，具有較大的延時性。

WordCount的MapReduce流程如圖所示，主要分為Map和Reduce兩個過程。Map階段做映射，對所有輸入的單詞賦值為1，Reduce階段做匯總，相同的單詞分發(fā)到一個節(jié)點上并進行求和，最終就可以統(tǒng)計出單詞的個數(shù)。

hadoop的優(yōu)勢

hadoop的優(yōu)勢主要體現(xiàn)在高可靠性，高擴展性等方面。

高可靠性是指多副本的存儲機制和失敗作業(yè)的重新調(diào)度計算。

高擴展性是指資源不夠時很容易直接擴展機器。一個集群可以包含數(shù)以千計的節(jié)點。

其他優(yōu)勢還表現(xiàn)在：hadoop完全可以部署在普通廉價的機器上，成本低。同時它具有成熟的生態(tài)圈和開源社區(qū)。

狹義hadoop VS 廣義hadoop：

狹義hadoop：指一個用于大數(shù)據(jù)分布式存儲(HDFS)，分布式計算(MapReduce)和資源調(diào)度(YARN)的平臺，這三樣只能用來做離線批處理，不能用于實時處理，因此才需要生態(tài)系統(tǒng)的其他的組件。

廣義的hadoop：指的是hadoop的生態(tài)系統(tǒng)，即其他各種組件在內(nèi)的一整套軟件。hadoop生態(tài)系統(tǒng)是一個很龐大的概念，hadoop只是其中最重要最基礎的部分，生態(tài)系統(tǒng)的每一個子系統(tǒng)只結(jié)局的某一個特定的問題域。不是一個全能系統(tǒng)，而是多個小而精的系統(tǒng)。

hadoop生態(tài)系統(tǒng)

上圖是hadoop生態(tài)系統(tǒng)的一個構(gòu)成。HDFS是基礎的文件系統(tǒng)，用來存儲數(shù)據(jù)，多副本，高容錯。MapReduce用來進行并行計算，它運行在Yarn之上。這是前文提到過的三大核心組件，下面我們簡要介紹圖中的其他部分。

由于MapReduce的學習成本相對較高，這樣就誕生了一些其他框架。

Hive 處理的是海量結(jié)構(gòu)化日志數(shù)據(jù)的統(tǒng)計問題。它定義了一種類似SQL的語言Hive QL，借助于hive引擎能將其轉(zhuǎn)換為MapReduce作業(yè)并提交到集群上進行運算。hive適用于離線處理。相比之下，SQL的門檻就低得多

Mahout是一個機器學習算法庫，實現(xiàn)了很多數(shù)據(jù)挖掘的經(jīng)典算法，幫助用戶很方便地創(chuàng)建應用程序。

Pig可以將腳本任務轉(zhuǎn)換為MapReduce作業(yè)，同樣是適用于離線分析。

Oozie是一個工作流調(diào)度引擎，用來處理具有依賴關系的作業(yè)調(diào)度。類似的框架有Azkaban，airflow等。

Zookeeper：分布式協(xié)調(diào)服務，“動物園管理員”角色，是一個對集群服務進行管理的框架，如維護故障切換等。

Flume：日志收集框架。將多種應用服務器上的日志，統(tǒng)一收集到HDFS上，這樣就可以使用hadoop進行處理

Sqoop：提供關系型數(shù)據(jù)庫與HDFS數(shù)據(jù)相互傳輸?shù)墓δ堋?/p>

Hbase：面向列存儲的數(shù)據(jù)庫。適用于實時快速查詢的場景。

除此之外，還有spark，kafka，flink，redis等新興的一些實用框架。

reference：https://blog.csdn.net/zcb_data/article/details/80402411

Hadoop生態(tài)系統(tǒng)的特點：

開源，社區(qū)高活躍
開源意味著源碼可獲取，可以直接基于源碼進行改造實現(xiàn)個性化需求。社區(qū)活躍高意味著迭代更新快，維護的人多。
囊括了大數(shù)據(jù)處理的方方面面
具有成熟的生態(tài)圈。

hadoop發(fā)行版本的選擇

Apache hadoop：解決了單個框架的額問題，綜合起來使用會有jar包沖突，不適合于生產(chǎn)環(huán)境。
CDH：Cloudera Distributed Hadoop。商業(yè)版本。使用Cloudera Manager對集群進行管理，通過瀏覽器，不需要通過linux就可以安裝，與spark結(jié)合的很好。沒有jar包沖突的問題。但Cloudera Manager不開源，企業(yè)版收費。
CDH的下載地址：http://archive.cloudera.com/cdh6/cdh/5/
HDP：Hortonworks Data Platform。商業(yè)版本之一，使用Ambari進行統(tǒng)一管理，對服務的用戶收費。

以上是“Hadoop基礎知識有哪些”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內(nèi)容對大家有所幫助，如果還想學習更多知識，歡迎關注創(chuàng)新互聯(lián)行業(yè)資訊頻道！

文章題目：Hadoop基礎知識有哪些
地址分享：http://muchs.cn/article48/gddehp.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供全網(wǎng)營銷推廣、微信小程序、營銷型網(wǎng)站建設、電子商務、商城網(wǎng)站、網(wǎng)站建設

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容