Hadoop基礎概念是什么

本篇內(nèi)容主要講解“Hadoop基礎概念是什么”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“Hadoop基礎概念是什么”吧!

在白河等地區(qū),都構建了全面的區(qū)域性戰(zhàn)略布局,加強發(fā)展的系統(tǒng)性、市場前瞻性、產(chǎn)品創(chuàng)新能力,以專注、極致的服務理念,為客戶提供成都網(wǎng)站設計、網(wǎng)站制作 網(wǎng)站設計制作定制網(wǎng)站開發(fā),公司網(wǎng)站建設,企業(yè)網(wǎng)站建設,品牌網(wǎng)站建設,成都全網(wǎng)營銷,外貿(mào)營銷網(wǎng)站建設,白河網(wǎng)站建設費用合理。

    大數(shù)據(jù)為什么會興起?沒有大數(shù)據(jù)以前是怎么做的?這2個問題其實以我的經(jīng)驗回答不是很合適,但是既然提到,就僅從個人的經(jīng)驗出發(fā)來說下必要性。進入大數(shù)據(jù)行業(yè)第一節(jié)公司是一個移動SDK公司,主要是嵌入SDK通過展示廣告、APP推薦下載等來給開發(fā)者帶來收入。當時的第一個項目是分析這些SDK一天的日志(apache日志),對下載的每個APP按省份做一個排序。任務交給了SDK開發(fā)團隊,具體的方案不清楚,但是一天的數(shù)據(jù)需要跑10小時以上(記憶模糊,4年前文章提到過此事)。后來用Hadoop,寫了簡單的MR處理,大概10多分鐘就搞定了,這就是大數(shù)據(jù)存在的意義,也能從一個角度反應為什么會興起。

    關于Hadoop,首先必須要介紹下概念?現(xiàn)在有很多初學者,一上來就問Datanode是什么?Datanode和NodeManager能不能在一臺節(jié)點上?對于這種問題,我的回答都是“太小白,先看看書吧”。對于Hadoop的學習,很多人從Cloudera Manager或者Ambari開始,我個人非常不建議。我還是覺得實戰(zhàn)前,先看看書,至少翻一本熟悉了以后,其他的可以邊學邊研究。而一開始就極度依賴這些工具,概念不清楚,至少會讓人覺得不專業(yè),不是認真學習的料子。

    版本和分支:
參考官方wiki,https://wiki.apache.org/hadoop/Roadmap,目前hadoop主流分支有3條,分別是hadoop 1.X、hadoop 2.X和hadoop 3.X。
Hadoop1.X:是從hadoop 0.20發(fā)展而來,我還記得12剛開始玩hadoop的時候就是0.20.2,那時候在公司用的就是cdh4u3,后來的公司升級到了1.0,但是一直到14年離職,也都還是1.X,沒有升級到2.x,另外朋友私下聊天,其實那個時候還是以1.X為主的,2.X一般是新建集群才會使用。主要的原因就是因為升級中的風險,升級的詳細過程董西城老師有文章詳細介紹:http://dongxicheng.org/mapreduce-nextgen/hadoop-upgrade-to-version-2/
Hadoop 2.X:Hadoop2.0除了api的改動,對外界最大的感知就是增加了Yarn作為mapreduce的調度系統(tǒng),計算資源也從單一的slot改為了內(nèi)存/CPU等資源,按nodemanager不同可以區(qū)別配置。此外hadoop2.X還解決了一些1.X中的大坑點,比如單點故障,提供了基于QJM和NFS2種不同的解決方案。
Hadoop3.X:當前資料不是很多,其中值得期待的就是實現(xiàn)了Erasure Coding(糾刪碼),EC的強大之一是可以將以往的3副本,減少為1.5副本,還能保證數(shù)據(jù)不會丟失,這一強大功能在云存儲領域廣泛應用。

后續(xù)的系列介紹中,我們選擇的版本是Hadoop2.X中的,2.6.4

概念介紹:

HDFS:Hadoop Distributed File System 

NameNode:hdfs主節(jié)點,不做實際存儲主要管理hdfs的元數(shù)據(jù)信息、維護文件塊和節(jié)點的對應關系以及維護用戶對文件的修改信息。  
DataNode:hdfs的工作節(jié)點,實際的數(shù)據(jù)處理和存儲節(jié)點。  
SecondaryNameNode:輔助節(jié)點,協(xié)助NameNode合并fsimage和edits文件,主要是做checkpoint的工作,在namenode宕機是可以及時恢復。    
CheckPoint Node:和Secondary NameNode作用一樣,只是因為Secondary名字容易混淆而添加,使用方法  
Backup Node:和Secondary、CheckPoint類似,提供checkpoint功能,但是會保留和namenode完全一致的信息  

Yarn:

ResourceManager:主節(jié)點,處理客戶端請求;管理NodeManager和Application Master;管理資源的調度和分配

NodeManager:工作節(jié)點,單個節(jié)點的資源管理;處理來自RM和AM的命令

Application Master:數(shù)據(jù)切分;為application申請資源,分配任務;監(jiān)控任務的運行

                    WebAppProxyServer:顧名思義,yarn web頁面上對application的代理,主要是出于安全考慮

                    JobHistoryServer:主要負責處理任務的日志信息

            介紹了概念,開頭的問題,DataNode和NodeManager能不能部署到同一個節(jié)點就顯而易見了。答案是完全可以,而且這樣會很好,前提是要看好機器的配置,做好劃分。

到此,相信大家對“Hadoop基礎概念是什么”有了更深的了解,不妨來實際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關內(nèi)容可以進入相關頻道進行查詢,關注我們,繼續(xù)學習!

當前標題:Hadoop基礎概念是什么
新聞來源:http://muchs.cn/article24/gjsjce.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供全網(wǎng)營銷推廣、品牌網(wǎng)站制作、網(wǎng)站改版、靜態(tài)網(wǎng)站、電子商務、網(wǎng)站內(nèi)鏈

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

成都seo排名網(wǎng)站優(yōu)化