Yarn資源調(diào)度系統(tǒng)的架構(gòu)和原理-創(chuàng)新互聯(lián)

本篇文章為大家探討Yarn資源調(diào)度系統(tǒng)的架構(gòu)和原理的解決方法，文章內(nèi)容質(zhì)量較高，有需要的朋友可以學(xué)習(xí)和借鑒。

站在用戶的角度思考問(wèn)題，與客戶深入溝通，找到河?xùn)|網(wǎng)站設(shè)計(jì)與河?xùn)|網(wǎng)站推廣的解決方案，憑借多年的經(jīng)驗(yàn)，讓設(shè)計(jì)與互聯(lián)網(wǎng)技術(shù)結(jié)合，創(chuàng)造個(gè)性化、用戶體驗(yàn)好的作品，建站類型包括：網(wǎng)站制作、做網(wǎng)站、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、域名申請(qǐng)、虛擬主機(jī)、企業(yè)郵箱。業(yè)務(wù)覆蓋河?xùn)|地區(qū)。

1、Yarn介紹

Yarn資源調(diào)度系統(tǒng)的架構(gòu)和原理
&ensp;&ensp;&ensp;Apache Hadoop YARN 是 apache Software Foundation Hadoop的子項(xiàng)目，為分離Hadoop2.0資源管理和計(jì)算組件而引入。YARN的誕生緣于存儲(chǔ)于HDFS的數(shù)據(jù)需要更多的交互模式，不單單是MapReduce模式。Hadoop2.0 的YARN 架構(gòu)提供了更多的處理框架，比如spark框架，不再?gòu)?qiáng)迫使用MapReduce框架。
&ensp;&ensp;&ensp;從hadoop2.0 的架構(gòu)圖可以看出，YARN承擔(dān)著原本由MapReduce承擔(dān)的資源管理的功能，同時(shí)將這部分的功能打包使得他們可以被新的數(shù)據(jù)處理引擎使用。這也同時(shí)簡(jiǎn)化了MapReduce的流程，使得MapReduce專注的將數(shù)據(jù)處理做到最好。使用YARN,可以用共同的資源管理，在Hadoop上跑很多應(yīng)用程序。目前，很多機(jī)構(gòu)已經(jīng)開(kāi)發(fā)基于YARN的應(yīng)用程序。

2、Yarn架構(gòu)

&ensp;&ensp;&ensp;YARN的架構(gòu)還是經(jīng)典的主從（master/slave）結(jié)構(gòu)，如下圖所示。大體上看，YARN服務(wù)由一個(gè)ResourceManager（RM）和多個(gè)NodeManager（NM）構(gòu)成，ResourceManager為主節(jié)點(diǎn)（master），NodeManager為從節(jié)點(diǎn)（slave）
Yarn資源調(diào)度系統(tǒng)的架構(gòu)和原理
&ensp;&ensp;&ensp;在YARN體系結(jié)構(gòu)中，全局ResourceManager作為主守護(hù)程序運(yùn)行，該仲裁程序在各種競(jìng)爭(zhēng)應(yīng)用程序之間仲裁可用的群集資源。ResourceManager跟蹤群集上可用的活動(dòng)節(jié)點(diǎn)和資源的數(shù)量，并協(xié)調(diào)用戶提交的應(yīng)用程序應(yīng)獲取這些資源的時(shí)間和時(shí)間。ResourceManager是具有此信息的單個(gè)進(jìn)程，因此它可以以共享，安全和多租戶的方式進(jìn)行分配（或者更確切地說(shuō)，調(diào)度）決策（例如，根據(jù)應(yīng)用程序優(yōu)先級(jí)，隊(duì)列容量，ACL，數(shù)據(jù)位置等）。
&ensp;&ensp;&ensp;當(dāng)用戶提交應(yīng)用程序時(shí)，將啟動(dòng)名為ApplicationMaster的輕量級(jí)進(jìn)程實(shí)例，以協(xié)調(diào)應(yīng)用程序中所有任務(wù)的執(zhí)行。這包括監(jiān)視任務(wù)，重新啟動(dòng)失敗的任務(wù)，推測(cè)性地運(yùn)行慢速任務(wù)以及計(jì)算應(yīng)用程序計(jì)數(shù)器的總值。這些職責(zé)先前已分配給所有工作的單個(gè)JobTracker。ApplicationMaster和屬于其應(yīng)用程序的任務(wù)在NodeManagers控制的資源容器中運(yùn)行。
&ensp;&ensp;&ensp;ApplicationMaster可以在容器內(nèi)運(yùn)行任何類型的任務(wù)。例如，MapReduce ApplicationMaster請(qǐng)求容器啟動(dòng)map或reduce任務(wù)，而Giraph ApplicationMaster請(qǐng)求容器運(yùn)行Giraph任務(wù)。您還可以實(shí)現(xiàn)運(yùn)行特定任務(wù)的自定義ApplicationMaster，并以此方式創(chuàng)建一個(gè)閃亮的新分布式應(yīng)用程序框架，該框架可以更改大數(shù)據(jù)世界。我鼓勵(lì)您閱讀Apache Twill，它旨在簡(jiǎn)化編寫位于YARN之上的分布式應(yīng)用程序。
&ensp;&ensp;&ensp;一個(gè)可以運(yùn)行任何分布式應(yīng)用程序的集群 ResourceManager，NodeManager和容器不關(guān)心應(yīng)用程序或任務(wù)的類型。所有特定于應(yīng)用程序框架的代碼都被簡(jiǎn)單地移動(dòng)到其ApplicationMaster，以便YARN可以支持任何分布式框架，只要有人為它實(shí)現(xiàn)適當(dāng)?shù)腁pplicationMaster。由于這種通用方法，運(yùn)行許多不同工作負(fù)載的Hadoop YARN集群的夢(mèng)想成真。想象一下：數(shù)據(jù)中心內(nèi)的單個(gè)Hadoop集群可以運(yùn)行MapReduce，Giraph，Storm，Spark，Tez / Impala，MPI等。

核心組件：	組件名	作用
ResourceManager	相當(dāng)于這個(gè)Application的監(jiān)護(hù)人和管理者，負(fù)責(zé)監(jiān)控、管理這個(gè)Application的所有Attempt在cluster中各個(gè)節(jié)點(diǎn)上的具體運(yùn)行，同時(shí)負(fù)責(zé)向YarnResourceManager申請(qǐng)資源、返還資源等；
ApplicationMaster	相當(dāng)于這個(gè)Application的監(jiān)護(hù)人和管理者，負(fù)責(zé)監(jiān)控、管理這個(gè)Application的所有Attempt在cluster中各個(gè)節(jié)點(diǎn)上的具體運(yùn)行，同時(shí)負(fù)責(zé)向YarnResourceManager申請(qǐng)資源、返還資源等；
NodeManager	是Slave上一個(gè)獨(dú)立運(yùn)行的進(jìn)程，負(fù)責(zé)上報(bào)節(jié)點(diǎn)的狀態(tài)(磁盤，內(nèi)存，cpu等使用信息)；
Container	是yarn中分配資源的一個(gè)單位，包涵內(nèi)存、CPU等等資源，YARN以Container為單位分配資源；

2.1 、ResourceManager

&ensp;&ensp;&ensp;RM是一個(gè)全局的資源管理器，集群只有一個(gè)，負(fù)責(zé)整個(gè)系統(tǒng)的資源管理和分配，包括處理客戶端請(qǐng)求、啟動(dòng)/監(jiān)控ApplicationMaster、監(jiān)控 NodeManager、資源的分配與調(diào)度。它主要由兩個(gè)組件構(gòu)成：調(diào)度器（Scheduler）和應(yīng)用程序管理器（Applications Manager，ASM）。
&ensp;&ensp;&ensp;(1)調(diào)度器
&ensp;&ensp;&ensp;調(diào)度器根據(jù)容量、隊(duì)列等限制條件（如每個(gè)隊(duì)列分配一定的資源，最多執(zhí)行一定數(shù)量的作業(yè)等），將系統(tǒng)中的資源分配給各個(gè)正在運(yùn)行的應(yīng)用程序。需要注意的是，該調(diào)度器是一個(gè)“純調(diào)度器”，它從事任何與具體應(yīng)用程序相關(guān)的工作，比如不負(fù)責(zé)監(jiān)控或者跟蹤應(yīng)用的執(zhí)行狀態(tài)等，也不負(fù)責(zé)重新啟動(dòng)因應(yīng)用執(zhí)行失敗或者硬件故障而產(chǎn)生的失敗任務(wù)，這些均交由應(yīng)用程序相關(guān)的ApplicationMaster完成。
&ensp;&ensp;&ensp;調(diào)度器僅根據(jù)各個(gè)應(yīng)用程序的資源需求進(jìn)行資源分配，而資源分配單位用一個(gè)抽象概念“資源容器”（ResourceContainer，簡(jiǎn)稱Container）表示，Container是一個(gè)動(dòng)態(tài)資源分配單位，它將內(nèi)存、CPU、磁盤、網(wǎng)絡(luò)等資源封裝在一起，從而限定每個(gè)任務(wù)使用的資源量。
&ensp;&ensp;&ensp;(2)應(yīng)用程序管理器
應(yīng)用程序管理器主要負(fù)責(zé)管理整個(gè)系統(tǒng)中所有應(yīng)用程序，接收job的提交請(qǐng)求，為應(yīng)用分配第一個(gè) Container 來(lái)運(yùn)
行 ApplicationMaster，包括應(yīng)用程序提交、與調(diào)度器協(xié)商資源以啟動(dòng) ApplicationMaster、監(jiān)控
ApplicationMaster 運(yùn)行狀態(tài)并在失敗時(shí)重新啟動(dòng)它等。

2.2 、ApplicationMaster

&ensp;&ensp;&ensp;管理 YARN 內(nèi)運(yùn)行的一個(gè)應(yīng)用程序的每個(gè)實(shí)例。關(guān)于 job 或應(yīng)用的管理都是由 ApplicationMaster 進(jìn)程負(fù)責(zé)的，Yarn 允許我們以為自己的應(yīng)用開(kāi)發(fā) ApplicationMaster。
&ensp;&ensp;&ensp;功能：
&ensp;&ensp;&ensp;(1)數(shù)據(jù)切分；
&ensp;&ensp;&ensp;(2)為應(yīng)用程序申請(qǐng)資源并進(jìn)一步分配給內(nèi)部任務(wù)（TASK）；
&ensp;&ensp;&ensp;(3)任務(wù)監(jiān)控與容錯(cuò)；
&ensp;&ensp;&ensp;負(fù)責(zé)協(xié)調(diào)來(lái)自ResourceManager的資源，并通過(guò)NodeManager監(jiān)視容易的執(zhí)行和資源使用情況。Yarn 的動(dòng)態(tài)性，就是來(lái)源于多個(gè)Application 的ApplicationMaster 動(dòng)態(tài)地和 ResourceManager 進(jìn)行溝通，不斷地申請(qǐng)、釋放、再申請(qǐng)、再釋放資源的過(guò)程。

2.3 、NodeManager

&ensp;&ensp;&ensp;NodeManager 整個(gè)集群有多個(gè)，負(fù)責(zé)每個(gè)節(jié)點(diǎn)上的資源和使用。
&ensp;&ensp;&ensp;NodeManager 是一個(gè) slave 服務(wù)：它負(fù)責(zé)接收 ResourceManager 的資源分配請(qǐng)求，分配具體的 Container 給應(yīng)用。同時(shí)，它還負(fù)責(zé)監(jiān)控并報(bào)告 Container 使用信息給 ResourceManager。通過(guò)和ResourceManager 配合，NodeManager 負(fù)責(zé)整個(gè) Hadoop 集群中的資源分配工作。
&ensp;&ensp;&ensp;功能:本節(jié)點(diǎn)上的資源使用情況和各個(gè) Container 的運(yùn)行狀態(tài)（cpu和內(nèi)存等資源）
&ensp;&ensp;&ensp;(1)接收及處理來(lái)自 ResourceManager 的命令請(qǐng)求，分配 Container 給應(yīng)用的某個(gè)任務(wù)；
&ensp;&ensp;&ensp;(2)定時(shí)地向RM匯報(bào)以確保整個(gè)集群平穩(wěn)運(yùn)行，RM 通過(guò)收集每個(gè) NodeManager 的報(bào)告信息來(lái)追蹤整個(gè)集群健康狀態(tài)的，而 NodeManager 負(fù)責(zé)監(jiān)控自身的健康狀態(tài)；
&ensp;&ensp;&ensp;(3)處理來(lái)自 ApplicationMaster 的請(qǐng)求；
&ensp;&ensp;&ensp;(4)管理著所在節(jié)點(diǎn)每個(gè) Container 的生命周期；
&ensp;&ensp;&ensp;(5)管理每個(gè)節(jié)點(diǎn)上的日志；
&ensp;&ensp;&ensp;(6)執(zhí)行 Yarn 上面應(yīng)用的一些額外的服務(wù)，比如 MapReduce 的 shuffle 過(guò)程；
&ensp;&ensp;&ensp;當(dāng)一個(gè)節(jié)點(diǎn)啟動(dòng)時(shí)，它會(huì)向 ResourceManager 進(jìn)行注冊(cè)并告知 ResourceManager 自己有多少資源可用。在運(yùn)行期，通過(guò) NodeManager 和 ResourceManager 協(xié)同工作，這些信息會(huì)不斷被更新并保障整個(gè)集群發(fā)揮出最佳狀態(tài)。NodeManager 只負(fù)責(zé)管理自身的 Container，它并不知道運(yùn)行在它上面應(yīng)用的信息。負(fù)責(zé)管理應(yīng)用信息的組件是ApplicationMaster

2.4 、Container

&ensp;&ensp;&ensp;Container 是 YARN 中的資源抽象，它封裝了某個(gè)節(jié)點(diǎn)上的多維度資源，如內(nèi)存、CPU、磁盤、網(wǎng)絡(luò)等，當(dāng) AM 向RM 申請(qǐng)資源時(shí)，RM 為 AM 返回的資源便是用 Container 表示的。YARN 會(huì)為每個(gè)任務(wù)分配一個(gè) Container，且任務(wù)只能使用該 Container 中描述的資源。
&ensp;&ensp;&ensp;Container 和集群節(jié)點(diǎn)的關(guān)系是：一個(gè)節(jié)點(diǎn)會(huì)運(yùn)行多個(gè) Container，但一個(gè) Container 不會(huì)跨節(jié)點(diǎn)。任何一個(gè) job或 application 必須運(yùn)行在一個(gè)或多個(gè) Container 中，在 Yarn 框架中，ResourceManager 只負(fù)責(zé)告訴ApplicationMaster 哪些 Containers 可以用，ApplicationMaster 還需要去找 NodeManager 請(qǐng)求分配具體的Container。
&ensp;&ensp;&ensp;需要注意的是，Container 是一個(gè)動(dòng)態(tài)資源劃分單位，是根據(jù)應(yīng)用程序的需求動(dòng)態(tài)生成的。目前為止，YARN 僅支持 CPU 和內(nèi)存兩種資源，且使用了輕量級(jí)資源隔離機(jī)制 Cgroups 進(jìn)行資源隔離。

2.5 、Resource Request 及 Container

&ensp;&ensp;&ensp;Yarn的設(shè)計(jì)目標(biāo)就是允許我們的各種應(yīng)用以共享、安全、多租戶的形式使用整個(gè)集群。并且，為了保證集群資源調(diào)度和數(shù)據(jù)訪問(wèn)的高效性，Yarn還必須能夠感知整個(gè)集群拓?fù)浣Y(jié)構(gòu)。
&ensp;&ensp;&ensp;為了實(shí)現(xiàn)這些目標(biāo)，ResourceManager的調(diào)度器Scheduler為應(yīng)用程序的資源請(qǐng)求定義了一些靈活的協(xié)議，通過(guò)它就可以對(duì)運(yùn)行在集群中的各個(gè)應(yīng)用做更好的調(diào)度，因此，這就誕生了Resource Request和Container。一個(gè)應(yīng)用先向ApplicationMaster發(fā)送一個(gè)滿足自己需求的資源請(qǐng)求，然后ApplicationMaster把這個(gè)資源請(qǐng)求以
&ensp;&ensp;&ensp;resource-request的形式發(fā)送給ResourceManager的Scheduler，Scheduler再在這個(gè)原始的resource-request中返回分配到的資源描述Container。每個(gè)ResourceRequest可看做一個(gè)可序列化Java對(duì)象，包含的字段信息如下：

<!--
- resource-name：資源名稱，現(xiàn)階段指的是資源所在的host和rack，后期可能還會(huì)支持虛擬機(jī)或者更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)
- priority：資源的優(yōu)先級(jí)
- resource-requirement：資源的具體需求，現(xiàn)階段指內(nèi)存和cpu需求的數(shù)量
- number-of-containers：滿足需求的Container的集合
-->
<resource-name, priority, resource-requirement, number-of-containers>

2.6 、JobHistoryServer

&ensp;&ensp;&ensp;作業(yè)歷史服務(wù),記錄在yarn中調(diào)度的作業(yè)歷史運(yùn)行情況情況 , 通過(guò)mr-jobhistory-daemon.sh start historyserver命令在集群中的數(shù)據(jù)節(jié)點(diǎn)機(jī)器上不需要做任何配置,單獨(dú)使用命令啟動(dòng)直接啟動(dòng)即可, 啟動(dòng)成功后會(huì)出現(xiàn)JobHistoryServer進(jìn)程(使用jps命令查看，下面會(huì)有介紹) , 并且可以從19888端口進(jìn)行查看日志詳細(xì)信息
Yarn資源調(diào)度系統(tǒng)的架構(gòu)和原理
打開(kāi)如下圖界面，在下圖中點(diǎn)擊History，頁(yè)面會(huì)進(jìn)行一次跳轉(zhuǎn)

點(diǎn)擊History之后跳轉(zhuǎn)后的頁(yè)面如下圖,是空白的，這時(shí)因?yàn)槲覀儧](méi)有啟動(dòng)jobhistoryserver所導(dǎo)致的。在三臺(tái)機(jī)器上執(zhí)行mr-jobhistory-daemon.sh start historyserver命令依次啟動(dòng)jobhistoryserver。在node1節(jié)點(diǎn)啟動(dòng)
Yarn資源調(diào)度系統(tǒng)的架構(gòu)和原理
此時(shí)我們?cè)谌齻€(gè)節(jié)點(diǎn)把jobhistoryserver啟動(dòng)后，在此運(yùn)行wordcount程序(記得啟動(dòng)前把輸出目錄刪除掉)
點(diǎn)擊History連接會(huì)跳轉(zhuǎn)一個(gè)贊新的頁(yè)面，在頁(yè)面下方會(huì)看到TaskType中列舉的map和reduce，Total表示此次運(yùn)行的mapreduce程序執(zhí)行所需要的map和reduce的任務(wù)數(shù)據(jù).

2.7、Timeline Server

&ensp;&ensp;&ensp;用來(lái)寫日志服務(wù)數(shù)據(jù) , 一般來(lái)寫與第三方結(jié)合的日志服務(wù)數(shù)據(jù)(比如spark等),從官網(wǎng)的介紹看，它是對(duì)jobhistoryserver功能的有效補(bǔ)充，jobhistoryserver只能對(duì)mapreduce類型的作業(yè)信息進(jìn)行記錄，除了jobhistoryserver能夠進(jìn)行對(duì)作業(yè)運(yùn)行過(guò)程中信息進(jìn)行記錄之外還有更細(xì)粒度的信息記錄，比如任務(wù)在哪個(gè)隊(duì)列中運(yùn)行，運(yùn)行任務(wù)時(shí)設(shè)置的用戶是哪個(gè)用戶。根據(jù)官網(wǎng)的解釋jobhistoryserver只能記錄mapreduce應(yīng)用程序的記錄，timelineserver功能更強(qiáng)大,但不是替代jobhistory兩者是功能間的互補(bǔ)關(guān)系。

3、yarn應(yīng)用運(yùn)行原理

&ensp;&ensp;&ensp;YARN 是如何工作的？ YARN的基本理念是將JobTracker/TaskTracker 兩大職能分割為以下幾個(gè)實(shí)體：
1.一個(gè)全局的資源管理ResourceManager

每個(gè)應(yīng)用程序一個(gè)ApplicationMaster
每個(gè)從節(jié)點(diǎn)一個(gè)NodeManager
每個(gè)應(yīng)用程序一個(gè)運(yùn)行在NodeManager上的Container
&ensp;&ensp;&ensp;ResouceManager 和 NodeManager 組成了一個(gè)新的、通用的、用分布式管理應(yīng)用程序的系統(tǒng)。ResourceManager 對(duì)系統(tǒng)中的應(yīng)用程序資源有終極仲裁的權(quán)限。ApplicationMaster 是一個(gè)特定于框架的實(shí)體，它的責(zé)任是同ResourceManager 談判資源，同時(shí)為NodeManager(s)執(zhí)行和監(jiān)控組件任務(wù)。RessourceManager有一個(gè)調(diào)度器，根據(jù)不同的約束條件，例如隊(duì)列容量、用戶限制等，將資源進(jìn)行分配給各類運(yùn)行著的應(yīng)用程序。調(diào)度器執(zhí)行調(diào)度功能是基于應(yīng)用程序的資源申請(qǐng)。NodeManager 負(fù)責(zé)發(fā)布應(yīng)用程序容器，監(jiān)控資源的使用并向ResourceManager進(jìn)行匯報(bào)。每個(gè)ApplicationMaster都有職責(zé)從調(diào)度器那談判得到適當(dāng)?shù)馁Y源容器，追蹤它們的狀態(tài)，并監(jiān)控他們的進(jìn)程。從系統(tǒng)的視圖看，ApplicationMaster 作為一個(gè)普通的容器運(yùn)行著。

3.1、yarn應(yīng)用提交過(guò)程

&ensp;&ensp;&ensp;Application在Yarn中的執(zhí)行過(guò)程，整個(gè)執(zhí)行過(guò)程可以總結(jié)為三步：
&ensp;&ensp;&ensp;(1)應(yīng)用程序提交
&ensp;&ensp;&ensp;(2)啟動(dòng)應(yīng)用的ApplicationMaster實(shí)例
&ensp;&ensp;&ensp;(3)ApplicationMaster 實(shí)例管理應(yīng)用程序的執(zhí)行
具體過(guò)程：
&ensp;&ensp;&ensp;(1)客戶端程序向 ResourceManager 提交應(yīng)用并請(qǐng)求一個(gè) ApplicationMaster 實(shí)例；
(2)ResourceManager 找到一個(gè)可以運(yùn)行一個(gè) Container 的 NodeManager，并在這個(gè) Container 中啟動(dòng)ApplicationMaster 實(shí)例；
&ensp;&ensp;&ensp;(3)ApplicationMaster 向 ResourceManager 進(jìn)行注冊(cè)，注冊(cè)之后客戶端就可以查詢 ResourceManager 獲得自己 ApplicationMaster 的詳細(xì)信息，以后就可以和自己的 ApplicationMaster 直接交互了（這個(gè)時(shí)候，客戶端主動(dòng)和 ApplicationMaster 交流，應(yīng)用先向 ApplicationMaster 發(fā)送一個(gè)滿足自己需求的資源請(qǐng)求）；
&ensp;&ensp;&ensp;(4)在平常的操作過(guò)程中，ApplicationMaster 根據(jù) resource-request協(xié)議向 ResourceManager 發(fā)送 resource-request請(qǐng)求；
&ensp;&ensp;&ensp;(5)當(dāng) Container 被成功分配后，ApplicationMaster 通過(guò)向 NodeManager 發(fā)送 container-launch-specification信息來(lái)啟動(dòng)Container，container-launch-specification信息包含了能夠讓Container 和ApplicationMaster 交流所需要的資料；
&ensp;&ensp;&ensp;(6)應(yīng)用程序的代碼以 task 形式在啟動(dòng)的 Container 中運(yùn)行，并把運(yùn)行的進(jìn)度、狀態(tài)等信息通過(guò) application-specific協(xié)議發(fā)送給ApplicationMaster；
&ensp;&ensp;&ensp;(7)在應(yīng)用程序運(yùn)行期間，提交應(yīng)用的客戶端主動(dòng)和 ApplicationMaster 交流獲得應(yīng)用的運(yùn)行狀態(tài)、進(jìn)度更新等信息，交流協(xié)議也是 application-specific協(xié)議；
&ensp;&ensp;&ensp;(8)一旦應(yīng)用程序執(zhí)行完成并且所有相關(guān)工作也已經(jīng)完成，ApplicationMaster 向 ResourceManager 取消注冊(cè)然后關(guān)閉，用到所有的 Container 也歸還給系統(tǒng)。

3.2、mapreduce on yarn

&ensp;&ensp;&ensp;(1)客戶端提交hadoop jar
&ensp;&ensp;&ensp;(2)找到main()方法中的job.waitForCompletition生成job對(duì)象，運(yùn)行job對(duì)象的runjob()方法，與ResourceManager通信，
返回ResourceManager分配一個(gè)ID號(hào)（applicationid），需不需要輸出，如果需要輸出，判斷輸出是否存在，如果不存在問(wèn)題，在看輸入，根據(jù)hdfs得到輸入得到分片信息,根據(jù)分片信息得到map個(gè)數(shù)，將這些信息回傳給客戶端Job
&ensp;&ensp;&ensp;(3)把Job所需要的資源，例如Jar包，配置文件，split分片信息，上傳到hdfs中去
&ensp;&ensp;&ensp;(4)Job對(duì)象告知與ResourceManager提交應(yīng)用
&ensp;&ensp;&ensp;(5)ResourceManager尋找合適的節(jié)點(diǎn)開(kāi)啟container容器(本質(zhì)上是一個(gè)JVM虛擬機(jī))
&ensp;&ensp;&ensp;(6)在container中啟動(dòng)一個(gè)applicationMaster,初始化Job，生成一個(gè)薄記對(duì)象(就是一個(gè)記事本)，記錄map、reduce的狀態(tài)。把job所有資源上傳到hdfs中，包括jar包，配置文件，split信息
&ensp;&ensp;&ensp;(7)applicationMaster向ResourceManager申請(qǐng)資源，返回資源信息(包括node節(jié)點(diǎn)地址，cpu信息，內(nèi)存占比，IO信息)
&ensp;&ensp;&ensp;(8)applicationMaster收到信息之后，和NodeManager通信，傳遞資源信息
&ensp;&ensp;&ensp;(9)開(kāi)啟YarnChild進(jìn)程,從hdfs中獲得Job詳細(xì)信息(包括Jar包,配置文件信息)
Yarn資源調(diào)度系統(tǒng)的架構(gòu)和原理
&ensp;&ensp;&ensp;(一)Job初始化：1、當(dāng)resourceManager收到了submitApplication()方法的調(diào)用通知后，scheduler開(kāi)始分配container,隨之ResouceManager發(fā)送applicationMaster進(jìn)程，告知每個(gè)nodeManager管理器。 2、由applicationMaster決定如何運(yùn)行tasks,如果job數(shù)據(jù)量比較小，applicationMaster便選擇將tasks運(yùn)行在一個(gè)JVM中。那么如何判別這個(gè)job是大是小呢？當(dāng)一個(gè)job的mappers數(shù)量小于10個(gè)，只有一個(gè)reducer或者讀取的文件大小要小于一個(gè)HDFS block時(shí)，（可通過(guò)修改配置項(xiàng)mapreduce.job.ubertask.maxmaps,mapreduce.job.ubertask.maxreduces以及mapreduce.job.ubertask.maxbytes 進(jìn)行調(diào)整) 3、在運(yùn)行tasks之前，applicationMaster將會(huì)調(diào)用setupJob()方法，隨之創(chuàng)建output的輸出路徑(這就能夠解釋，不管你的mapreduce一開(kāi)始是否報(bào)錯(cuò)，輸出路徑都會(huì)創(chuàng)建)。
&ensp;&ensp;&ensp;(二)Task 任務(wù)分配：1、接下來(lái)applicationMaster向ResourceManager請(qǐng)求containers用于執(zhí)行map與reduce的tasks（step 8),這里map task的優(yōu)先級(jí)要高于reduce task，當(dāng)所有的map tasks結(jié)束后，隨之進(jìn)行sort(這里是shuffle過(guò)程后面再說(shuō)）,最后進(jìn)行reduce task的開(kāi)始。(這里有一點(diǎn)，當(dāng)map tasks執(zhí)行了百分之5%的時(shí)候，將會(huì)請(qǐng)求reduce，具體下面再總結(jié)) 2、運(yùn)行tasks的是需要消耗內(nèi)存與CPU資源的，默認(rèn)情況下，map和reduce的task資源分配為1024MB與一個(gè)核，（可修改運(yùn)行的最小與大參數(shù)配置,mapreduce.map.memory.mb,mapreduce.reduce.memory.mb,mapreduce.map.cpu.vcores,mapreduce.reduce.reduce.cpu.vcores.)
&ensp;&ensp;&ensp;(三)運(yùn)行進(jìn)度與狀態(tài)更新 1、MapReduce是一個(gè)較長(zhǎng)運(yùn)行時(shí)間的批處理過(guò)程，可以是一小時(shí)、
幾小時(shí)甚至幾天，那么Job的運(yùn)行狀態(tài)監(jiān)控就非常重要。每個(gè)job以及每個(gè)task都有一個(gè)包含
job（running,successfully completed,failed）的狀態(tài)，以及value的計(jì)數(shù)器，狀態(tài)信息及描述信息（描述信息一般都是在代碼中加的打印信息），那么，這些信息是如何與客戶端進(jìn)行通信的呢？ 2、當(dāng)一個(gè)task開(kāi)始執(zhí)行，它將會(huì)保持運(yùn)行記錄，記錄task完成的比例，對(duì)于map的任務(wù)，將會(huì)記錄其運(yùn)行的百分比，對(duì)于reduce來(lái)說(shuō)可能復(fù)雜點(diǎn)，但系統(tǒng)依舊會(huì)估計(jì)reduce的完成比例。當(dāng)一個(gè)map或reduce任務(wù)執(zhí)行時(shí)，子進(jìn)程會(huì)持續(xù)每三秒鐘與applicationMaster進(jìn)行交互。

4、 yarn使用

4.1 、配置文件

<!-- $HADOOP_HOME/etc/hadoop/mapred-site.xml -->
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
<!-- $HADOOP_HOME/etc/hadoop/yarn-site.xml -->
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

4.2、 yarn啟動(dòng)停止

啟動(dòng) ResourceManager 和 NodeManager （以下分別簡(jiǎn)稱RM、NM）

#主節(jié)點(diǎn)運(yùn)行命令
$HADOOP_HOME/sbin/start-yarn.sh
#主節(jié)點(diǎn)運(yùn)行命令
$HADOOP_HOME/sbin/stop-yarn.sh
若RM沒(méi)有啟動(dòng)起來(lái)，可以單獨(dú)啟動(dòng)

若RM沒(méi)有啟動(dòng)起來(lái)，可以單獨(dú)啟動(dòng)

#若RM沒(méi)有啟動(dòng)，在主節(jié)點(diǎn)運(yùn)行命令
$HADOOP_HOME/sbin/yarn-daemon.sh start resouremanager
#相反，可單獨(dú)關(guān)閉
$HADOOP_HOME/sbin/yarn-daemon.sh stop resouremanager

若NM沒(méi)有啟動(dòng)起來(lái)，可以單獨(dú)啟動(dòng)

#若NM沒(méi)有啟動(dòng)，在相應(yīng)節(jié)點(diǎn)運(yùn)行命令
$HADOOP_HOME/sbin/yarn-daemon.sh start nodemanager
#相反，可單獨(dú)關(guān)閉
$HADOOP_HOME/sbin/yarn-daemon.sh stop nodemanager

4.3、 yarn常用命令

#1.查看正在運(yùn)行的任務(wù)
yarn application -list
#2.殺掉正在運(yùn)行任務(wù)
yarn application -kill 任務(wù)id
#3.查看節(jié)點(diǎn)列表
yarn node -list
#4.查看節(jié)點(diǎn)狀況 TODO
yarn node -status node3:40652
#5.查看yarn依賴jar的環(huán)境變量
yarn classpath

5、Yarn調(diào)度器

在Yarn中有三種調(diào)度器可以選擇：FIFO Scheduler ，Capacity Scheduler，F(xiàn)airS cheduler

5.1、 FIFO Scheduler

&ensp;&ensp;&ensp;FIFO Scheduler把應(yīng)用按提交的順序排成一個(gè)隊(duì)列，這是一個(gè)先進(jìn)先出隊(duì)列，在進(jìn)行資源分配的時(shí)候，先給隊(duì)列中最頭上的應(yīng)用進(jìn)行分配資源，待最頭上的應(yīng)用需求滿足后再給下一個(gè)分配，以此類推。FIFO Scheduler是最簡(jiǎn)單也是最容易理解的調(diào)度器，也不需要任何配置，但它并不適用于共享集群。大的應(yīng)用可能會(huì)占用所有集群資源，這就導(dǎo)致其它應(yīng)用被阻塞。在共享集群中，更適合采用Capacity Scheduler或FairScheduler，這兩個(gè)調(diào)度器都允許大任務(wù)和小任務(wù)在提交的同時(shí)獲得一定的系統(tǒng)資源。下面“Yarn調(diào)度器對(duì)比圖”展示了這幾個(gè)調(diào)度器的區(qū)別，從圖中可以看出，在FIFO 調(diào)度器中

5.2、 Capacity Scheduler

而對(duì)于Capacity調(diào)度器，有一個(gè)專門的隊(duì)列用來(lái)運(yùn)行小任務(wù)，但是為小任務(wù)專門設(shè)置一個(gè)隊(duì)列會(huì)預(yù)先占用一定的集
群資源，這就導(dǎo)致大任務(wù)的執(zhí)行時(shí)間會(huì)落后于使用FIFO調(diào)度器時(shí)的時(shí)間。
如何配置容量調(diào)度器
隊(duì)列層級(jí)結(jié)構(gòu)如下：
root
├── prod
└── dev
&ensp;&ensp;&ensp;&ensp; ├── spark
&ensp;&ensp;&ensp;&ensp; └── hdp
HADOOP_HOME/etc/hadoop/中建立一個(gè)新的capacity-scheduler.xml；內(nèi)容如下：

<?xml version="1.0" encoding="utf-8"?>
<configuration>
  <property>
    <name>yarn.scheduler.capacity.root.queues</name>
    <value>prod,dev</value>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.dev.queues</name>
    <value>hdp,spark</value>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.prod.capacity</name>
    <value>40</value>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.dev.capacity</name>
    <value>60</value>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.dev.maximum-capacity</name>
    <value>75</value>
  </property>
  <property>
  <name>yarn.scheduler.capacity.root.dev.hdp.capacity</name>
   <value>50</value>
   </property>
  <property>
    <name>yarn.scheduler.capacity.root.dev.spark.capacity</name>
    <value>50</value>
   </property>
  </configuration>

將應(yīng)用放置在哪個(gè)隊(duì)列中，取決于應(yīng)用本身。
例如MR，可以通過(guò)設(shè)置屬性mapreduce.job.queuename指定相應(yīng)隊(duì)列。以WordCount為例，如下，如果指定的隊(duì)列不存在，則發(fā)生錯(cuò)誤。如果不指定，默認(rèn)使用"default"隊(duì)列，如下圖
Yarn資源調(diào)度系統(tǒng)的架構(gòu)和原理

5.3、 Fair Scheduler

在Fair調(diào)度器中，我們不需要預(yù)先占用一定的系統(tǒng)資源，F(xiàn)air調(diào)度器會(huì)為所有運(yùn)行的job動(dòng)態(tài)的調(diào)整系統(tǒng)資源。當(dāng)?shù)谝粋€(gè)大job提交時(shí)，只有這一個(gè)job在運(yùn)行，此時(shí)它獲得了所有集群資源；當(dāng)?shù)诙€(gè)小任務(wù)提交后，F(xiàn)air調(diào)度器會(huì)分配一半資源給這個(gè)小任務(wù)，讓這兩個(gè)任務(wù)公平的共享集群資源。需要注意的是，在下圖Fair調(diào)度器中，從第二個(gè)任務(wù)提交到獲得資源會(huì)有一定的延遲，因?yàn)樗枰却谝粋€(gè)任務(wù)釋放占用的Container。小任務(wù)執(zhí)行完成之后也會(huì)釋放自己占用的資源，大任務(wù)又獲得了全部的系統(tǒng)資源。最終的效果就是Fair調(diào)度器即得到了高的資源利用率又能保證小任務(wù)及時(shí)完成.

看完上述內(nèi)容，你們對(duì)Yarn資源調(diào)度系統(tǒng)的架構(gòu)和原理有進(jìn)一步的了解嗎？如果還想了解更多相關(guān)內(nèi)容，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道，感謝各位的閱讀。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn，海內(nèi)外云服務(wù)器15元起步，三天無(wú)理由+7*72小時(shí)售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì)，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

網(wǎng)站題目：Yarn資源調(diào)度系統(tǒng)的架構(gòu)和原理-創(chuàng)新互聯(lián)
路徑分享：http://muchs.cn/article32/dppepc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站設(shè)計(jì)公司、域名注冊(cè)、品牌網(wǎng)站建設(shè)、網(wǎng)站導(dǎo)航、ChatGPT、品牌網(wǎng)站制作

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

Yarn資源調(diào)度系統(tǒng)的架構(gòu)和原理-創(chuàng)新互聯(lián)

1、Yarn介紹

2、Yarn架構(gòu)

2.1 、ResourceManager

2.2 、ApplicationMaster

2.3 、NodeManager

2.4 、Container