這篇文章主要為大家展示了“Hadoop基礎(chǔ)知識有哪些”,內(nèi)容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“Hadoop基礎(chǔ)知識有哪些”這篇文章吧。
成都創(chuàng)新互聯(lián)公司是工信部頒發(fā)資質(zhì)IDC服務(wù)器商,為用戶提供優(yōu)質(zhì)的IDC機(jī)房托管服務(wù)
Hadoop這個單詞本身并沒有什么特殊的含義,而只是其作者Doug Cutting孩子的一個棕黃色的大象玩具的名字。
Hadoop是一個高可靠的(reliable),規(guī)??蓴U(kuò)展的(scalable),分布式(distributed computing)的開源軟件框架。它使我們能用一種簡單的編程模型來處理存儲于集群上的大數(shù)據(jù)集。
Hadoop是Apache基金會的一個開源項(xiàng)目,是一個提供了分布式存儲和分布式計(jì)算功能的基礎(chǔ)架構(gòu)平臺??梢詰?yīng)用于企業(yè)中的數(shù)據(jù)存儲,日志分析,商業(yè)智能,數(shù)據(jù)挖掘等。
1. hadoop包含的模塊:
Hadoop common:提供一些通用的功能支持其他hadoop模塊。
Hadoop Distributed File System:即分布式文件系統(tǒng),簡稱HDFS。主要用來做數(shù)據(jù)存儲,并提供對應(yīng)用數(shù)據(jù)高吞吐量的訪問。
Hadoop Yarn:用于作業(yè)調(diào)度和集群資源管理的框架。
Hadoop MapReduce:基于yarn的,能用來并行處理大數(shù)據(jù)集的計(jì)算框架。
2. HDFS:
HDFS是谷歌GFS的一個開源實(shí)現(xiàn),具有擴(kuò)展性,容錯性,海量數(shù)據(jù)存儲的特點(diǎn):
擴(kuò)展性,主要指很容易就可以在當(dāng)前的集群上增加一臺或者多臺機(jī)器,擴(kuò)展計(jì)算資源。
容錯性,主要指其多副本的存儲機(jī)制。HDFS將文件切分成固定大小的block(默認(rèn)是128M),并以多副本形式存儲在多臺機(jī)器上,當(dāng)其中一臺機(jī)器發(fā)生故障,仍然有其他副本供我們使用。但這個容錯并不是絕對的,當(dāng)所有節(jié)點(diǎn)都發(fā)生故障,文件就會丟失,不過這樣的概率較小。
海量數(shù)據(jù)存儲:多臺機(jī)器構(gòu)成了一個集群,相對單機(jī)能存儲更多量的數(shù)據(jù)。這也是Hadoop解決的最主要問題之一。
數(shù)據(jù)切分,多副本,容錯等機(jī)制都是Hadoop底層已經(jīng)設(shè)計(jì)好的,對用戶透明,用戶不需要關(guān)系細(xì)節(jié)。只需要按照對單機(jī)文件的操作方式,就可以進(jìn)行分布式文件的操作。如文件的上傳,查看,下載等。
多副本存儲示例:
以part-1為例進(jìn)行說明,它被分成三個block,block_id分別是2,4,5,且副本系數(shù)為3??梢钥吹皆贒ataNode上,2,4,5都各存儲在了三個節(jié)點(diǎn)上,這樣當(dāng)其中一個節(jié)點(diǎn)故障時,仍然能夠保證文件的可用。block_id存在的必要性在于,在用戶需要對文件進(jìn)行操作時,相應(yīng)的block能夠按順序進(jìn)行“組合”起來。
3. YARN:
Yarn的全稱是Yet Another Resource Negotiator,負(fù)責(zé)整個集群資源的管理和調(diào)度。例如對每個作業(yè),分配CPU,內(nèi)存等等,都由yarn來管理。它的特點(diǎn)是擴(kuò)展性,容錯性,多框架資源統(tǒng)一調(diào)度。
擴(kuò)展性和HDFS的擴(kuò)展性類似,yarn也很容易擴(kuò)展其計(jì)算資源。
容錯性,主要是指當(dāng)某個任務(wù)出現(xiàn)異常,yarn會對其進(jìn)行一定次數(shù)的重試。
多框架資源統(tǒng)一調(diào)度,這個是相對于hadoop1.0版本的一個優(yōu)勢。區(qū)別于hadoop1.0只支持MapReduce作業(yè)。而yarn之上可以運(yùn)行不同類型的作業(yè)。如下圖所示,很多應(yīng)用都可以運(yùn)行在yarn之上,由yarn統(tǒng)一進(jìn)行調(diào)度。
4. mapreduce:
是一個分布式計(jì)算框架,是GoogleMapReduce的克隆版。和HDFS、Yarn類似,也具有擴(kuò)展性和容錯性的特點(diǎn),還將具有海量數(shù)據(jù)離線處理的特點(diǎn):能夠處理的數(shù)據(jù)量大,但并不是實(shí)時處理,具有較大的延時性。
WordCount的MapReduce流程如圖所示,主要分為Map和Reduce兩個過程。Map階段做映射,對所有輸入的單詞賦值為1,Reduce階段做匯總,相同的單詞分發(fā)到一個節(jié)點(diǎn)上并進(jìn)行求和,最終就可以統(tǒng)計(jì)出單詞的個數(shù)。
hadoop的優(yōu)勢主要體現(xiàn)在高可靠性,高擴(kuò)展性等方面。
高可靠性是指多副本的存儲機(jī)制和失敗作業(yè)的重新調(diào)度計(jì)算。
高擴(kuò)展性是指資源不夠時很容易直接擴(kuò)展機(jī)器。一個集群可以包含數(shù)以千計(jì)的節(jié)點(diǎn)。
其他優(yōu)勢還表現(xiàn)在:hadoop完全可以部署在普通廉價的機(jī)器上,成本低。同時它具有成熟的生態(tài)圈和開源社區(qū)。
狹義hadoop:指一個用于大數(shù)據(jù)分布式存儲(HDFS),分布式計(jì)算(MapReduce)和資源調(diào)度(YARN)的平臺,這三樣只能用來做離線批處理,不能用于實(shí)時處理,因此才需要生態(tài)系統(tǒng)的其他的組件。
廣義的hadoop:指的是hadoop的生態(tài)系統(tǒng),即其他各種組件在內(nèi)的一整套軟件。hadoop生態(tài)系統(tǒng)是一個很龐大的概念,hadoop只是其中最重要最基礎(chǔ)的部分,生態(tài)系統(tǒng)的每一個子系統(tǒng)只結(jié)局的某一個特定的問題域。不是一個全能系統(tǒng),而是多個小而精的系統(tǒng)。
由于MapReduce的學(xué)習(xí)成本相對較高,這樣就誕生了一些其他框架。
Hive 處理的是海量結(jié)構(gòu)化日志數(shù)據(jù)的統(tǒng)計(jì)問題。它定義了一種類似SQL的語言Hive QL,借助于hive引擎能將其轉(zhuǎn)換為MapReduce作業(yè)并提交到集群上進(jìn)行運(yùn)算。hive適用于離線處理。相比之下,SQL的門檻就低得多
Mahout是一個機(jī)器學(xué)習(xí)算法庫,實(shí)現(xiàn)了很多數(shù)據(jù)挖掘的經(jīng)典算法,幫助用戶很方便地創(chuàng)建應(yīng)用程序。
Pig可以將腳本任務(wù)轉(zhuǎn)換為MapReduce作業(yè),同樣是適用于離線分析。
Oozie是一個工作流調(diào)度引擎,用來處理具有依賴關(guān)系的作業(yè)調(diào)度。類似的框架有Azkaban,airflow等。
Zookeeper:分布式協(xié)調(diào)服務(wù),“動物園管理員”角色,是一個對集群服務(wù)進(jìn)行管理的框架,如維護(hù)故障切換等。
Flume:日志收集框架。將多種應(yīng)用服務(wù)器上的日志,統(tǒng)一收集到HDFS上,這樣就可以使用hadoop進(jìn)行處理
Sqoop:提供關(guān)系型數(shù)據(jù)庫與HDFS數(shù)據(jù)相互傳輸?shù)墓δ堋?/p>
Hbase:面向列存儲的數(shù)據(jù)庫。適用于實(shí)時快速查詢的場景。
除此之外,還有spark,kafka,flink,redis等新興的一些實(shí)用框架。
reference:https://blog.csdn.net/zcb_data/article/details/80402411
開源,社區(qū)高活躍
開源意味著源碼可獲取,可以直接基于源碼進(jìn)行改造實(shí)現(xiàn)個性化需求。社區(qū)活躍高意味著迭代更新快,維護(hù)的人多。
囊括了大數(shù)據(jù)處理的方方面面
具有成熟的生態(tài)圈。
Apache hadoop:解決了單個框架的額問題,綜合起來使用會有jar包沖突,不適合于生產(chǎn)環(huán)境。
CDH:Cloudera Distributed Hadoop。商業(yè)版本。使用Cloudera Manager對集群進(jìn)行管理,通過瀏覽器,不需要通過linux就可以安裝,與spark結(jié)合的很好。沒有jar包沖突的問題。但Cloudera Manager不開源,企業(yè)版收費(fèi)。
CDH的下載地址:http://archive.cloudera.com/cdh6/cdh/5/
HDP:Hortonworks Data Platform。商業(yè)版本之一,使用Ambari進(jìn)行統(tǒng)一管理,對服務(wù)的用戶收費(fèi)。
以上是“Hadoop基礎(chǔ)知識有哪些”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學(xué)習(xí)更多知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!
文章題目:Hadoop基礎(chǔ)知識有哪些
地址分享:http://muchs.cn/article48/gddehp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供全網(wǎng)營銷推廣、微信小程序、營銷型網(wǎng)站建設(shè)、電子商務(wù)、商城網(wǎng)站、網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)