Hadoop3.x有哪些新特性

本篇內(nèi)容介紹了“Hadoop3.x有哪些新特性”的有關(guān)知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細閱讀,能夠?qū)W有所成!

按需求定制制作可以根據(jù)自己的需求進行定制,成都網(wǎng)站制作、成都網(wǎng)站建設(shè)構(gòu)思過程中功能建設(shè)理應(yīng)排到主要部位公司成都網(wǎng)站制作、成都網(wǎng)站建設(shè)的運用實際效果公司網(wǎng)站制作網(wǎng)站建立與制做的實際意義

JDK

在Hadoop 3中,所有的Hadoop JAR包編譯的環(huán)境都是基于Java8來完成的,所有如果仍然使用的是Java 7或者更低的版本,你可能需要升級到Java 8才能正常的運行Hadoop3。如下圖所示:

Hadoop3.x有哪些新特性

EC技術(shù)

首先,我們先來了解一下什么是Erasure Encoding。如下圖所示:

Hadoop3.x有哪些新特性

一般來說,在存儲系統(tǒng)中,EC技術(shù)主要用于廉價磁盤冗余陣列,即RAID。如上圖,RAID通過Stripping實現(xiàn)EC技術(shù),其中邏輯順序數(shù)據(jù)(比如:文件)被劃分成更小的單元(比如:位、字節(jié)或者是塊),并將連續(xù)單元存儲在不同的磁盤上。

然后,對原始數(shù)據(jù)單元的每個Stripe,計算并存儲一定數(shù)量的奇偶校驗單位。這個過程稱之為編碼,通過基于有效數(shù)據(jù)單元和奇偶校驗單元的解碼計算,可以恢復(fù)任意Stripe單元的錯誤。當(dāng)我們想到了擦除編碼的時候,我們可以先來了解一下在Hadoop2中復(fù)制的早期場景。如下圖所示:

Hadoop3.x有哪些新特性

HDFS默認情況下,它的備份系數(shù)是3,一個原始數(shù)據(jù)塊和其他2個副本。其中2個副本所需要的存儲開銷各站100%,這樣使得200%的存儲開銷,會消耗其他資源,比如網(wǎng)絡(luò)帶寬。然而,在正常操作中很少訪問具有低IO活動的冷數(shù)據(jù)集的副本,但是仍然消耗與原始數(shù)據(jù)集相同的資源量。

對于EC技術(shù),即擦除編碼存儲數(shù)據(jù)和提供容錯空間較小的開銷相比,HDFS復(fù)制,EC技術(shù)可以代替復(fù)制,這將提供相同的容錯機制,同時還減少了存儲開銷。如下圖所示:

Hadoop3.x有哪些新特性

EC和HDFS的整合可以保持與提供存儲效率相同的容錯。例如,一個副本系數(shù)為3,要復(fù)制文件的6個塊,需要消耗6*3=18個塊的磁盤空間。但是,使用EC技術(shù)(6個數(shù)據(jù)塊,3個奇偶校驗塊)來部署,它只需要消耗磁盤空間的9個塊(6個數(shù)據(jù)塊+3個奇偶校驗塊)。這些與原先的存儲空間相比較,節(jié)省了50%的存儲開銷。

由于擦除編碼需要在執(zhí)行遠程讀取時,對數(shù)據(jù)重建帶來額外的開銷,因此他通常用于存儲不太頻繁訪問的數(shù)據(jù)。在部署EC之前,用戶應(yīng)該考慮EC的所有開銷,比如存儲、網(wǎng)絡(luò)、CPU等。

YARN的時間線V.2服務(wù)

   Hadoop引入YARN Timeline Service v.2是為了解決兩個主要問題:

  1. 提高時間線服務(wù)的可伸縮性和可靠性;

  2. 通過引入流和聚合來增強可用性

下面首先,我們來剖析一下它伸縮性。

1  伸縮性

YARN V1僅限于讀寫單個實例,不能很好的擴展到小集群之外。YARN V2使用了更具有伸縮性的分布式體系架構(gòu)和可擴展的后端存儲,它將數(shù)據(jù)的寫入與數(shù)據(jù)的讀取進行了分離。并使用分布式收集器,本質(zhì)上是每個YARN應(yīng)用的收集器。讀則是獨立的實例,專門通過REST API服務(wù)來查詢

2  可用性

對于可用性的改進,在很多情況下,用戶對流或者YARN應(yīng)用的邏輯組的信息比較感興趣。啟動一組或者一系列的YARN應(yīng)用程序來完成邏輯應(yīng)用是很常見的。如下圖所示:

Hadoop3.x有哪些新特性

3 架構(gòu)體系

   YARN時間線服務(wù)V2采用了一組收集器寫數(shù)據(jù)到后端進行存儲。收集器被分配并與它們專用的應(yīng)用程序主機進行協(xié)作,如下圖所示,屬于該應(yīng)用程序的所有數(shù)據(jù)都被發(fā)送到應(yīng)用程序時間軸的收集器中,但是資源管理器時間軸收集器除外。

   Hadoop3.x有哪些新特性

對于給定的應(yīng)用程序,應(yīng)用程序可以將數(shù)據(jù)寫入同一時間軸收集器中。此外,為應(yīng)用程序運行容器的其他節(jié)點的節(jié)點管理器,還會向運行應(yīng)用程序主節(jié)點的時間軸收集器寫入數(shù)據(jù)。資源管理器還維護自己的時間手機線收集器,它只發(fā)布YARN的通用生命周期事件,以保持其寫入量合理。時間的讀取器是單獨的守護進程從收集器中分離出來的,它旨在服務(wù)于REST API查詢操作。

“Hadoop3.x有哪些新特性”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實用文章!

本文名稱:Hadoop3.x有哪些新特性
文章起源:http://muchs.cn/article4/iepiie.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供軟件開發(fā)、網(wǎng)站內(nèi)鏈網(wǎng)站收錄、網(wǎng)站維護全網(wǎng)營銷推廣、面包屑導(dǎo)航

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

手機網(wǎng)站建設(shè)