這篇文章給大家分享的是有關(guān)hadoop mapreduce執(zhí)行過程是怎么樣的的內(nèi)容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。
創(chuàng)新互聯(lián)長期為上1000+客戶提供的網(wǎng)站建設(shè)服務(wù),團(tuán)隊從業(yè)經(jīng)驗10年,關(guān)注不同地域、不同群體,并針對不同對象提供差異化的產(chǎn)品和服務(wù);打造開放共贏平臺,與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為大埔企業(yè)提供專業(yè)的網(wǎng)站設(shè)計、網(wǎng)站制作,大埔網(wǎng)站改版等技術(shù)服務(wù)。擁有十載豐富建站經(jīng)驗和眾多成功案例,為您定制開發(fā)。
MapReduce的大體流程是這樣的,如圖所示:
由圖片可以看到mapreduce執(zhí)行下來主要包含這樣幾個步驟
1.首先對輸入數(shù)據(jù)源進(jìn)行切片
2.master調(diào)度worker執(zhí)行map任務(wù)
3.worker讀取輸入源片段
4.worker執(zhí)行map任務(wù),將任務(wù)輸出保存在本地
5.master調(diào)度worker執(zhí)行reduce任務(wù),reduce worker讀取map任務(wù)的輸出文件
6.執(zhí)行reduce任務(wù),將任務(wù)輸出保存到HDFS
若對流程細(xì)節(jié)進(jìn)行深究,可以得到這樣一張流程圖
角色描述:
JobClient:執(zhí)行任務(wù)的客戶端
JobTracker:任務(wù)調(diào)度器
TaskTracker:任務(wù)跟蹤器
Task:具體的任務(wù)(Map OR Reduce)
map-shuffle-reduce過程
從上圖看出,Shuffle過程橫跨map與reduce兩端,所以下面我也會分兩部分來展開。
先看看map端的情況,如下圖:
上圖可能是某個map task的運行情況。拿它與官方圖的左半邊比較,會發(fā)現(xiàn)很多不一致。官方圖沒有清楚地說明partition,sort與combiner到底作用在哪個階段。我畫了這張圖,希望讓大家清晰地了解從map數(shù)據(jù)輸入到map端所有數(shù)據(jù)準(zhǔn)備好的全過程。
整個流程我分了四步。簡單些可以這樣說,每個map task都有一個內(nèi)存緩沖區(qū),存儲著map的輸出結(jié)果,當(dāng)緩沖區(qū)快滿的時候需要將緩沖區(qū)的數(shù)據(jù)以一個臨時文件的方式存放到磁盤,當(dāng)整個map task結(jié)束后再對磁盤中這個map task產(chǎn)生的所有臨時文件做合并,生成最終的正式輸出文件,然后等待reduce task來拉數(shù)據(jù)。
當(dāng)然這里的每一步都可能包含著多個步驟與細(xì)節(jié),下面我對細(xì)節(jié)來一一說明:
1.在map task執(zhí)行時,它的輸入數(shù)據(jù)來源于HDFS的block,當(dāng)然在MapReduce概念中,map task只讀取split。Split與block的對應(yīng)關(guān)系可能是多對一,默認(rèn)是一對一。在WordCount例子里,假設(shè)map的輸入數(shù)據(jù)都是像“aaa”這樣的字符串。
2.在經(jīng)過mapper的運行后,我們得知mapper的輸出是這樣一個key/value對: key是“aaa”, value是數(shù)值1。因為當(dāng)前map端只做加1的操作,在reduce task里才去合并結(jié)果集。前面我們知道這個job有3個reduce task,到底當(dāng)前的“aaa”應(yīng)該交由哪個reduce去做呢,是需要現(xiàn)在決定的。
MapReduce提供Partitioner接口,它的作用就是根據(jù)key或value及reduce的數(shù)量來決定當(dāng)前的這對輸出數(shù)據(jù)最終應(yīng)該交由哪個reduce task處理。默認(rèn)對key hash后再以reduce task數(shù)量取模。默認(rèn)的取模方式只是為了平均reduce的處理能力,如果用戶自己對Partitioner有需求,可以訂制并設(shè)置到j(luò)ob上。
在我們的例子中,“aaa”經(jīng)過Partitioner后返回0,也就是這對值應(yīng)當(dāng)交由第一個reducer來處理。接下來,需要將數(shù)據(jù)寫入內(nèi)存緩沖區(qū)中,緩沖區(qū)的作用是批量收集map結(jié)果,減少磁盤IO的影響。我們的key/value對以及Partition的結(jié)果都會被寫入緩沖區(qū)。當(dāng)然寫入之前,key與value值都會被序列化成字節(jié)數(shù)組。
整個內(nèi)存緩沖區(qū)就是一個字節(jié)數(shù)組,它的字節(jié)索引及key/value存儲結(jié)構(gòu)我沒有研究過。如果有朋友對它有研究,那么請大致描述下它的細(xì)節(jié)吧。
3.這個內(nèi)存緩沖區(qū)是有大小限制的,默認(rèn)是100MB。當(dāng)map task的輸出結(jié)果很多時,就可能會撐爆內(nèi)存,所以需要在一定條件下將緩沖區(qū)中的數(shù)據(jù)臨時寫入磁盤,然后重新利用這塊緩沖區(qū)。這個從內(nèi)存往磁盤寫數(shù)據(jù)的過程被稱為Spill,中文可譯為溢寫,字面意思很直觀。這個溢寫是由單獨線程來完成,不影響往緩沖區(qū)寫map結(jié)果的線程。溢寫線程啟動時不應(yīng)該阻止map的結(jié)果輸出,所以整個緩沖區(qū)有個溢寫的比例spill.percent。這個比例默認(rèn)是0.8,也就是當(dāng)緩沖區(qū)的數(shù)據(jù)已經(jīng)達(dá)到閾值(buffer size * spill percent = 100MB * 0.8 = 80MB),溢寫線程啟動,鎖定這80MB的內(nèi)存,執(zhí)行溢寫過程。Map task的輸出結(jié)果還可以往剩下的20MB內(nèi)存中寫,互不影響。
當(dāng)溢寫線程啟動后,需要對這80MB空間內(nèi)的key做排序(Sort)。排序是MapReduce模型默認(rèn)的行為,這里的排序也是對序列化的字節(jié)做的排序。
在這里我們可以想想,因為map task的輸出是需要發(fā)送到不同的reduce端去,而內(nèi)存緩沖區(qū)沒有對將發(fā)送到相同reduce端的數(shù)據(jù)做合并,那么這種合并應(yīng)該是體現(xiàn)是磁盤文件中的。從官方圖上也可以看到寫到磁盤中的溢寫文件是對不同的reduce端的數(shù)值做過合并。所以溢寫過程一個很重要的細(xì)節(jié)在于,如果有很多個key/value對需要發(fā)送到某個reduce端去,那么需要將這些key/value值拼接到一塊,減少與partition相關(guān)的索引記錄。
在針對每個reduce端而合并數(shù)據(jù)時,有些數(shù)據(jù)可能像這樣:“aaa”/1, “aaa”/1。對于WordCount例子,就是簡單地統(tǒng)計單詞出現(xiàn)的次數(shù),如果在同一個map task的結(jié)果中有很多個像“aaa”一樣出現(xiàn)多次的key,我們就應(yīng)該把它們的值合并到一塊,這個過程叫reduce也叫combine。但MapReduce的術(shù)語中,reduce只指reduce端執(zhí)行從多個map task取數(shù)據(jù)做計算的過程。除reduce外,非正式地合并數(shù)據(jù)只能算做combine了。其實大家知道的,MapReduce中將Combiner等同于Reducer。
如果client設(shè)置過Combiner,那么現(xiàn)在就是使用Combiner的時候了。將有相同key的key/value對的value加起來,減少溢寫到磁盤的數(shù)據(jù)量。Combiner會優(yōu)化MapReduce的中間結(jié)果,所以它在整個模型中會多次使用。那哪些場景才能使用Combiner呢?從這里分析,Combiner的輸出是Reducer的輸入,Combiner絕不能改變最終的計算結(jié)果。所以從我的想法來看,Combiner只應(yīng)該用于那種Reduce的輸入key/value與輸出key/value類型完全一致,且不影響最終結(jié)果的場景。比如累加,最大值等。Combiner的使用一定得慎重,如果用好,它對job執(zhí)行效率有幫助,反之會影響reduce的最終結(jié)果。
4.每次溢寫會在磁盤上生成一個溢寫文件,如果map的輸出結(jié)果真的很大,有多次這樣的溢寫發(fā)生,磁盤上相應(yīng)的就會有多個溢寫文件存在。當(dāng)map task真正完成時,內(nèi)存緩沖區(qū)中的數(shù)據(jù)也全部溢寫到磁盤中形成一個溢寫文件。最終磁盤中會至少有一個這樣的溢寫文件存在(如果map的輸出結(jié)果很少,當(dāng)map執(zhí)行完成時,只會產(chǎn)生一個溢寫文件),因為最終的文件只有一個,所以需要將這些溢寫文件歸并到一起,這個過程就叫做Merge。Merge是怎樣的?如前面的例子,“aaa”從某個map task讀取過來時值是5,從另外一個map 讀取時值是8,因為它們有相同的key,所以得merge成group。什么是group。對于“aaa”就是像這樣的:{“aaa”, [5, 8, 2, …]},數(shù)組中的值就是從不同溢寫文件中讀取出來的,然后再把這些值加起來。請注意,因為merge是將多個溢寫文件合并到一個文件,所以可能也有相同的key存在,在這個過程中如果client設(shè)置過Combiner,也會使用Combiner來合并相同的key。
至此,map端的所有工作都已結(jié)束,最終生成的這個文件也存放在TaskTracker夠得著的某個本地目錄內(nèi)。每個reduce task不斷地通過RPC從JobTracker那里獲取map task是否完成的信息,如果reduce task得到通知,獲知某臺TaskTracker上的map task執(zhí)行完成,Shuffle的后半段過程開始啟動。
簡單地說,reduce task在執(zhí)行之前的工作就是不斷地拉取當(dāng)前job里每個map task的最終結(jié)果,然后對從不同地方拉取過來的數(shù)據(jù)不斷地做merge,也最終形成一個文件作為reduce task的輸入文件。見下圖:
如map 端的細(xì)節(jié)圖,Shuffle在reduce端的過程也能用圖上標(biāo)明的三點來概括。當(dāng)前reduce copy數(shù)據(jù)的前提是它要從JobTracker獲得有哪些map task已執(zhí)行結(jié)束,這段過程不表,有興趣的朋友可以關(guān)注下。Reducer真正運行之前,所有的時間都是在拉取數(shù)據(jù),做merge,且不斷重復(fù)地在做。如前面的方式一樣,下面我也分段地描述reduce 端的Shuffle細(xì)節(jié):
1.Copy過程,簡單地拉取數(shù)據(jù)。Reduce進(jìn)程啟動一些數(shù)據(jù)copy線程(Fetcher),通過HTTP方式請求map task所在的TaskTracker獲取map task的輸出文件。因為map task早已結(jié)束,這些文件就歸TaskTracker管理在本地磁盤中。
2.Merge階段。這里的merge如map端的merge動作,只是數(shù)組中存放的是不同map端copy來的數(shù)值。Copy過來的數(shù)據(jù)會先放入內(nèi)存緩沖區(qū)中,這里的緩沖區(qū)大小要比map端的更為靈活,它基于JVM的heap size設(shè)置,因為Shuffle階段Reducer不運行,所以應(yīng)該把絕大部分的內(nèi)存都給Shuffle用。這里需要強(qiáng)調(diào)的是,merge有三種形式:1)內(nèi)存到內(nèi)存 2)內(nèi)存到磁盤 3)磁盤到磁盤。默認(rèn)情況下第一種形式不啟用,讓人比較困惑,是吧。當(dāng)內(nèi)存中的數(shù)據(jù)量到達(dá)一定閾值,就啟動內(nèi)存到磁盤的merge。與map 端類似,這也是溢寫的過程,這個過程中如果你設(shè)置有Combiner,也是會啟用的,然后在磁盤中生成了眾多的溢寫文件。第二種merge方式一直在運行,直到?jīng)]有map端的數(shù)據(jù)時才結(jié)束,然后啟動第三種磁盤到磁盤的merge方式生成最終的那個文件。
3.Reducer的輸入文件。不斷地merge后,最后會生成一個“最終文件”。為什么加引號?因為這個文件可能存在于磁盤上,也可能存在于內(nèi)存中。對我們來說,當(dāng)然希望它存放于內(nèi)存中,直接作為Reducer的輸入,但默認(rèn)情況下,這個文件是存放于磁盤中的。至于怎樣才能讓這個文件出現(xiàn)在內(nèi)存中,之后的性能優(yōu)化篇我再說。當(dāng)Reducer的輸入文件已定,整個Shuffle才最終結(jié)束。然后就是Reducer執(zhí)行,把結(jié)果放到HDFS上。
感謝各位的閱讀!關(guān)于“hadoop mapreduce執(zhí)行過程是怎么樣的”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,讓大家可以學(xué)到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!
網(wǎng)站名稱:hadoopmapreduce執(zhí)行過程是怎么樣的
本文路徑:http://muchs.cn/article6/piodog.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供云服務(wù)器、服務(wù)器托管、微信小程序、網(wǎng)站設(shè)計公司、網(wǎng)站營銷、電子商務(wù)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)