Hadoop分布式處理框架

【簡介】Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。
1、解釋下什么是Apache基金會(huì)？
答：Apache軟件基金會(huì)（也就是Apache Software Foundation，簡稱為ASF），是專門為支持開源軟件項(xiàng)目而辦的一個(gè)非盈利性組織。在它所支持的Apache項(xiàng)目與子項(xiàng)目中，所發(fā)行的軟件產(chǎn)品都遵循Apache許可證（Apache License）。
【作用】
Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)HDFS。HDFS有高容錯(cuò)性的特點(diǎn)，并且設(shè)計(jì)用來部署在低廉的硬件上，而且它提供高吞吐量來訪問應(yīng)用程序數(shù)據(jù)，適合超大數(shù)據(jù)集的應(yīng)用程序。
Hadoop的框架嘴和新的設(shè)計(jì)師：HDFS（海量數(shù)據(jù)存儲(chǔ)）和MapReduce（為海量數(shù)據(jù)存儲(chǔ)提供計(jì)算）。
Hadoop分布式處理框架

【核心】
①Hadoop最底部是HDFS，它存儲(chǔ)Hadoop集群中所有階段上的文件。
②HDFS的上一層是MapReduce，由job 和task組成。
③通過HDFS和MapReduce處理過程，以及數(shù)據(jù)倉庫工具Hive和分布式數(shù)據(jù)庫Hbase。
2、解釋下HDFS？
答：對(duì)于外部客戶機(jī)而言，HDFS像傳統(tǒng)的分級(jí)文件系統(tǒng)，可以創(chuàng)建、刪除、移動(dòng)或重命名文件等。 Hadoop分布式處理框架
HDFS的架構(gòu)基于一組特定的節(jié)點(diǎn)構(gòu)建的，這些節(jié)點(diǎn)包括：
NameNode（僅一個(gè)），它在 HDFS 內(nèi)部提供元數(shù)據(jù)服務(wù),是一個(gè)通常在 HDFS 實(shí)例中的單獨(dú)機(jī)器上運(yùn)行的軟件,負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機(jī)的訪問。它決定是否將恩建映射到同一架構(gòu)的不同節(jié)點(diǎn)上。
DataNode，它為 HDFS 提供存儲(chǔ)塊。存儲(chǔ)在其中的文件被分成塊，然后將這些塊復(fù)制到多個(gè)計(jì)算機(jī)中（DataNode）。內(nèi)部所有的通信都基于標(biāo)準(zhǔn)TCP/IP協(xié)議。DataNode也是一個(gè)通常在HDFS實(shí)例中單獨(dú)機(jī)器上運(yùn)行的軟件。Hadoop集群包含一個(gè)NameNode和大量的DataNode。DataNode以機(jī)架的形式組織，機(jī)架通過一個(gè)交換機(jī)將所有的系統(tǒng)連接起來。
Hadoop分布式處理框架
3、解釋一下，利用HDFS進(jìn)行文件操作？
答：
①HDFS并不是一個(gè)萬能的文件系統(tǒng)，它主要目的是以流的形式訪問寫入的大型文件。
②如果客戶機(jī)將文件寫入到HDFS上，首先需要將文件緩存到本地的臨時(shí)存儲(chǔ)位置。
③如果緩存的數(shù)據(jù)大于所需的HDFS塊大小，創(chuàng)建文件的請(qǐng)求將發(fā)送給NameNode。NameNode將以DataNode標(biāo)識(shí)和目標(biāo)塊響應(yīng)客戶機(jī)。
④同時(shí)也通知將要保存文件塊副本的DataNode。當(dāng)客戶機(jī)開始臨時(shí)文件發(fā)送給第一個(gè)DataNode時(shí)，將立即通過管道方式將塊內(nèi)容轉(zhuǎn)發(fā)給副本DataNode。
⑤客戶機(jī)負(fù)責(zé)創(chuàng)建保存相同HDFS名稱空間的校驗(yàn)和文件。在最后的文件塊發(fā)送之后，NameNode將文件創(chuàng)建提交到它的持久化元數(shù)據(jù)存儲(chǔ)。
4、Hadoop在實(shí)際中的而應(yīng)用？
答：Hadoop技術(shù)廣泛應(yīng)用于互聯(lián)網(wǎng)，如雅虎使用4000個(gè)節(jié)點(diǎn)的Hadoop集群來支持廣告系統(tǒng)和web搜索；
Facebook使用1000個(gè)節(jié)點(diǎn)的Hadoop集群來存儲(chǔ)日式，支持?jǐn)?shù)據(jù)分析和機(jī)器學(xué)習(xí)；
百度用Hadoop處理每周200Tb的數(shù)據(jù)，從而進(jìn)行搜索日志分析和網(wǎng)頁數(shù)據(jù)挖掘；
淘寶的Hadoop系統(tǒng)用于存儲(chǔ)并處理電子商務(wù)交易相關(guān)的數(shù)據(jù)。
5、MapReduce與Hadoop比較？
答：
Hadoop是一種分布式數(shù)據(jù)和計(jì)算的框架。它很擅長存儲(chǔ)大量的半結(jié)構(gòu)化的數(shù)據(jù)集。數(shù)據(jù)可以隨機(jī)存放，所以一個(gè)磁盤的失敗并不會(huì)帶來數(shù)據(jù)丟失。Hadoop也非常擅長分布式計(jì)算——快速地跨多臺(tái)機(jī)器處理大型數(shù)據(jù)集合。
MapReduce是處理大量半結(jié)構(gòu)化數(shù)據(jù)集合的編程模型。編程模型是一種處理并結(jié)構(gòu)化特定問題的方式。
6、HDFS基本原理是什么？
答：
①HDFS存儲(chǔ)數(shù)據(jù)時(shí)，先將數(shù)據(jù)切成塊，并為塊分配一個(gè)有序編號(hào)；
②進(jìn)行數(shù)據(jù)備份；
③將復(fù)制的備份放在不同的DataNode中；
④當(dāng)DataNode宕機(jī)時(shí)，NameNode獎(jiǎng)DataNode上存放的副本復(fù)制；
⑤從而使NameNode保持對(duì)DataNode的管理（是心動(dòng)【節(jié)點(diǎn)狀態(tài)】啊，糟糕眼神【節(jié)點(diǎn)存儲(chǔ)的數(shù)據(jù)】躲不掉，對(duì)你莫名的心跳）；

創(chuàng)新互聯(lián)建站主要從事網(wǎng)站設(shè)計(jì)制作、網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計(jì)、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)合陽,十多年網(wǎng)站建設(shè)經(jīng)驗(yàn),價(jià)格優(yōu)惠、服務(wù)專業(yè),歡迎來電咨詢建站服務(wù):13518219792

分享題目：Hadoop分布式處理框架
分享路徑：http://muchs.cn/article42/ghjchc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供靜態(tài)網(wǎng)站、品牌網(wǎng)站設(shè)計(jì)、網(wǎng)站營銷、App開發(fā)、服務(wù)器托管、用戶體驗(yàn)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容