Hadoop權(quán)威指南摘錄---1

1、為何不用RAID

創(chuàng)新互聯(lián)服務(wù)項(xiàng)目包括平泉網(wǎng)站建設(shè)、平泉網(wǎng)站制作、平泉網(wǎng)頁(yè)制作以及平泉網(wǎng)絡(luò)營(yíng)銷策劃等。多年來(lái),我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢(shì)、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,平泉網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前,我們服務(wù)的客戶以成都為中心已經(jīng)輻射到平泉省份的部分城市,未來(lái)相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任!

HDFS所提供的節(jié)點(diǎn)間數(shù)據(jù)復(fù)制技術(shù)已可滿足數(shù)據(jù)備份需求,無(wú)需使用RAID冗余機(jī)制。

RAID 0速度比JBOD(Just a Bunch Of Disks)慢,JBOD在所有磁盤之間循環(huán)調(diào)度HDFS塊。RAID 0的讀寫操作受限于磁盤陣列中最慢盤片的速度,而JBOD的磁盤操作均獨(dú)立,因而篇平均讀寫速度高于最慢盤片的讀寫速度。

2、服務(wù)是否可以放在一臺(tái)服務(wù)器

對(duì)于一個(gè)小集群(幾十個(gè)節(jié)點(diǎn))而言,在一臺(tái)master機(jī)器上同時(shí)運(yùn)行namenode和jobtracker通常沒有問(wèn)題(需確保至少一份namenode的元數(shù)據(jù)被另存在遠(yuǎn)程文件系統(tǒng)中)。但是隨著HDFS中的集群和文件數(shù)不斷增長(zhǎng),namenode需要使用更多的內(nèi)存,那么namenode和jobtracker最好分別放到不同的機(jī)器中。

輔助namenode可以和namenode一起運(yùn)行在同一臺(tái)機(jī)器之中,但是同樣由于內(nèi)存使用的原因(輔助namenode和主namenode的內(nèi)存需求相同),二者最好運(yùn)行在獨(dú)立的服務(wù)器上;對(duì)于大規(guī)模集群來(lái)說(shuō)更是如此。

3、hadoop配置文件

hadoop集群的每個(gè)節(jié)點(diǎn)各自保存自己的配置文件,并沒有放在一個(gè)單獨(dú)的全局位置,由管理員去完成配置文件的同步。hadoop提供一個(gè)基本工具來(lái)進(jìn)行同步,即rsync。此外,dsh或pdsh等并行shell工具也可完成該任務(wù)。

hadoop也支持為所有的master機(jī)器和worker機(jī)器采用同一套配置文件。這個(gè)做法的最大優(yōu)勢(shì)就是簡(jiǎn)單。但是,這種一體適用的配置模型并不適合某些集群。以擴(kuò)展集群為例,當(dāng)試圖為集群添加新機(jī)器,且新機(jī)器的硬件規(guī)格與現(xiàn)有機(jī)器不同時(shí),則需要新建一套配置文件,以充分利用新硬件的額外資源。

在這種情況下,需要引入“機(jī)器類”的概念,為每一個(gè)機(jī)器類維護(hù)單獨(dú)的配置文件。hadoop沒有提供這個(gè)操作的工具,需要借助外部工具來(lái)執(zhí)行該配置操作。

4、獨(dú)立安裝MapReduce和HDFS的好處

分開兩個(gè)服務(wù)的前提條件是兼容性限制放寬,這樣有利于升級(jí),例如,可以一邊便捷的升級(jí)MapReduce(可能打一個(gè)補(bǔ)?。贿吶匀贿\(yùn)行HDFS。

需要注意的是即使獨(dú)立安裝了HDFS和MapReduce,它們?nèi)稳豢梢怨蚕砼渲眯畔?,其方法是使?-config選項(xiàng)(啟動(dòng)守護(hù)進(jìn)程時(shí)),指向同一個(gè)配置目錄。鑒于它們所產(chǎn)生的日志文件的名稱不同,不會(huì)導(dǎo)致沖突,因此任然可以將日志輸出到同一個(gè)目錄中。

5、masters節(jié)點(diǎn)

為了運(yùn)行hadoop內(nèi)置腳本來(lái)操作集群服務(wù)和守護(hù)進(jìn)程的啟停,需要預(yù)先知道集群內(nèi)的所有機(jī)器。兩個(gè)文件可以達(dá)成這個(gè)目標(biāo),即masers和slaves。各文件逐行記錄一些機(jī)器的名稱或IP地址。masters文件的名稱有點(diǎn)誤導(dǎo)人,它主要記錄的是擬運(yùn)行輔助namenode的所有機(jī)器。

namenode在內(nèi)存中保存整個(gè)命名空間中的所有元數(shù)據(jù)和塊元數(shù)據(jù),其內(nèi)存需求很大。輔助namenode在大部分時(shí)間里是空閑的,但是它在創(chuàng)建檢查點(diǎn)時(shí)的內(nèi)存需求與namenode是差不多的。一旦文件系統(tǒng)包含大量文件,單臺(tái)機(jī)器的物理內(nèi)存便無(wú)法同時(shí)運(yùn)行主namenode和輔助namenode。

輔助namenode保存一份最新的檢查點(diǎn),記錄它創(chuàng)建的文件系統(tǒng)的元數(shù)據(jù)。將這些歷史信息備份到其他節(jié)點(diǎn)上,有助于數(shù)據(jù)丟失(或系統(tǒng)崩潰)的情況下恢復(fù)namenode的元數(shù)據(jù)文件。

在一個(gè)運(yùn)行大量MapReduce作業(yè)的高負(fù)載集群上,jobtracker會(huì)占用大量?jī)?nèi)存和CPU資源,因此它最好運(yùn)行在一個(gè)專用節(jié)點(diǎn)上。

當(dāng)前題目:Hadoop權(quán)威指南摘錄---1
鏈接地址:http://muchs.cn/article34/phojse.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供靜態(tài)網(wǎng)站、做網(wǎng)站網(wǎng)站制作、企業(yè)網(wǎng)站制作、移動(dòng)網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)