Hadoop分布式處理框架-創(chuàng)新互聯(lián)

【簡介】Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。
1、解釋下什么是Apache基金會?
答:Apache軟件基金會(也就是Apache Software Foundation,簡稱為ASF),是專門為支持開源軟件項目而辦的一個非盈利性組織。在它所支持的Apache項目與子項目中,所發(fā)行的軟件產(chǎn)品都遵循Apache許可證(Apache License)。
【作用】
Hadoop實現(xiàn)了一個分布式文件系統(tǒng)HDFS。HDFS有高容錯性的特點,并且設(shè)計用來部署在低廉的硬件上,而且它提供高吞吐量來訪問應(yīng)用程序數(shù)據(jù),適合超大數(shù)據(jù)集的應(yīng)用程序。
Hadoop的框架嘴和新的設(shè)計師:HDFS(海量數(shù)據(jù)存儲)和MapReduce(為海量數(shù)據(jù)存儲提供計算)。
Hadoop分布式處理框架
Hadoop分布式處理框架
【核心】
①Hadoop最底部是HDFS,它存儲Hadoop集群中所有階段上的文件。
②HDFS的上一層是MapReduce,由job 和task組成。
③通過HDFS和MapReduce處理過程,以及數(shù)據(jù)倉庫工具Hive和分布式數(shù)據(jù)庫Hbase。
2、解釋下HDFS?
答:對于外部客戶機而言,HDFS像傳統(tǒng)的分級文件系統(tǒng),可以創(chuàng)建、刪除、移動或重命名文件等。Hadoop分布式處理框架
HDFS的架構(gòu)基于一組特定的節(jié)點構(gòu)建的,這些節(jié)點包括 :
NameNode(僅一個),它在 HDFS 內(nèi)部提供元數(shù)據(jù)服務(wù),是一個通常在 HDFS 實例中的單獨機器上運行的軟件,負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機的訪問。它決定是否將恩建映射到同一架構(gòu)的不同節(jié)點上。
DataNode,它為 HDFS 提供存儲塊。存儲在其中的文件被分成塊,然后將這些塊復(fù)制到多個計算機中(DataNode)。內(nèi)部所有的通信都基于標(biāo)準(zhǔn)TCP/IP協(xié)議。DataNode也是一個通常在HDFS實例中單獨機器上運行的軟件。Hadoop集群包含一個NameNode和大量的DataNode。DataNode以機架的形式組織,機架通過一個交換機將所有的系統(tǒng)連接起來。
Hadoop分布式處理框架
3、解釋一下,利用HDFS進(jìn)行文件操作?
答:
①HDFS并不是一個萬能的文件系統(tǒng),它主要目的是以流的形式訪問寫入的大型文件。
②如果客戶機將文件寫入到HDFS上,首先需要將文件緩存到本地的臨時存儲位置。
③如果緩存的數(shù)據(jù)大于所需的HDFS塊大小,創(chuàng)建文件的請求將發(fā)送給NameNode。NameNode將以DataNode標(biāo)識和目標(biāo)塊響應(yīng)客戶機。
④同時也通知將要保存文件塊副本的DataNode。當(dāng)客戶機開始臨時文件發(fā)送給第一個DataNode時,將立即通過管道方式將塊內(nèi)容轉(zhuǎn)發(fā)給副本DataNode。
⑤客戶機負(fù)責(zé)創(chuàng)建保存相同HDFS名稱空間的校驗和文件。在最后的文件塊發(fā)送之后,NameNode將文件創(chuàng)建提交到它的持久化元數(shù)據(jù)存儲。
4、Hadoop在實際中的而應(yīng)用?
答:Hadoop技術(shù)廣泛應(yīng)用于互聯(lián)網(wǎng),如雅虎使用4000個節(jié)點的Hadoop集群來支持廣告系統(tǒng)和web搜索;
Facebook使用1000個節(jié)點的Hadoop集群來存儲日式,支持?jǐn)?shù)據(jù)分析和機器學(xué)習(xí);
百度用Hadoop處理每周200Tb的數(shù)據(jù),從而進(jìn)行搜索日志分析和網(wǎng)頁數(shù)據(jù)挖掘;
淘寶的Hadoop系統(tǒng)用于存儲并處理電子商務(wù)交易相關(guān)的數(shù)據(jù)。
5、MapReduce與Hadoop比較?
答:
Hadoop是一種分布式數(shù)據(jù)和計算的框架。它很擅長存儲大量的半結(jié)構(gòu)化的數(shù)據(jù)集。數(shù)據(jù)可以隨機存放,所以一個磁盤的失敗并不會帶來數(shù)據(jù)丟失。Hadoop也非常擅長分布式計算——快速地跨多臺機器處理大型數(shù)據(jù)集合 。
MapReduce是處理大量半結(jié)構(gòu)化數(shù)據(jù)集合的編程模型。編程模型是一種處理并結(jié)構(gòu)化特定問題的方式。
6、HDFS基本原理是什么?
答:
①HDFS存儲數(shù)據(jù)時,先將數(shù)據(jù)切成塊,并為塊分配一個有序編號;
②進(jìn)行數(shù)據(jù)備份;
③將復(fù)制的備份放在不同的DataNode中;
④當(dāng)DataNode宕機時,NameNode獎DataNode上存放的副本復(fù)制;
⑤從而使NameNode保持對DataNode的管理(是心動【節(jié)點狀態(tài)】啊,糟糕眼神【節(jié)點存儲的數(shù)據(jù)】躲不掉,對你莫名的心跳);

創(chuàng)新互聯(lián)主要從事成都網(wǎng)站設(shè)計、成都做網(wǎng)站、網(wǎng)頁設(shè)計、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)峽江,十多年網(wǎng)站建設(shè)經(jīng)驗,價格優(yōu)惠、服務(wù)專業(yè),歡迎來電咨詢建站服務(wù):18980820575

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

分享文章:Hadoop分布式處理框架-創(chuàng)新互聯(lián)
文章來源:http://muchs.cn/article18/poggp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供營銷型網(wǎng)站建設(shè)、關(guān)鍵詞優(yōu)化、服務(wù)器托管微信公眾號、網(wǎng)站設(shè)計公司標(biāo)簽優(yōu)化

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站優(yōu)化排名