Hadoop的MapReduce執(zhí)行流程圖-創(chuàng)新互聯(lián)

Hadoop的MapReduce shuffle過程,非常重要。只有熟悉整個過程才能對業(yè)務(wù)了如指掌。

發(fā)展壯大離不開廣大客戶長期以來的信賴與支持,我們將始終秉承“誠信為本、服務(wù)至上”的服務(wù)理念,堅持“二合一”的優(yōu)良服務(wù)模式,真誠服務(wù)每家企業(yè),認(rèn)真做好每個細(xì)節(jié),不斷完善自我,成就企業(yè),實(shí)現(xiàn)共贏。行業(yè)涉及成都主動防護(hù)網(wǎng)等,在網(wǎng)站建設(shè)公司、網(wǎng)絡(luò)營銷推廣、WAP手機(jī)網(wǎng)站、VI設(shè)計、軟件開發(fā)等項(xiàng)目上具有豐富的設(shè)計經(jīng)驗(yàn)。

MapReduce執(zhí)行流程

Hadoop的MapReduce執(zhí)行流程圖

輸入和拆分:

  不屬于map和reduce的主要過程,但屬于整個計算框架消耗時間的一部分,該部分會為正式的map準(zhǔn)備數(shù)據(jù)。

  分片(split)操作:

  split只是將源文件的內(nèi)容分片形成一系列的 InputSplit,每個 InputSpilt 中存儲著對 應(yīng)分片的數(shù)據(jù)信息(例如,文件塊信息、起始位置、數(shù)據(jù)長度、所在節(jié)點(diǎn)列表…),并不是將源文件分割成多個小文件,每個InputSplit 都由一個 mapper 進(jìn)行后續(xù)處理。

  每個分片大小參數(shù)是很重要的,splitSize 是組成分片規(guī)則很重要的一個參數(shù),該參數(shù)由三個值來確定:

  minSize:splitSize 的最小值,由 mapred-site.xml 配置文件中 mapred.min.split.size 參數(shù)確定。

  maxSize:splitSize 的大值,由 mapred-site.xml 配置文件中mapreduce.jobtracker.split.metainfo.maxsize 參數(shù)確定。

  blockSize:HDFS 中文件存儲的快大小,由 hdfs-site.xml 配置文件中 dfs.block.size 參數(shù)確定。

  splitSize的確定規(guī)則:splitSize=max{minSize,min{maxSize,blockSize}}

  數(shù)據(jù)格式化(Format)操作:

  將劃分好的 InputSplit 格式化成鍵值對形式的數(shù)據(jù)。其中 key 為偏移量,value 是每一行的內(nèi)容。

  值得注意的是,在map任務(wù)執(zhí)行過程中,會不停的執(zhí)行數(shù)據(jù)格式化操作,每生成一個鍵值對就會將其傳入 map,進(jìn)行處理。所以map和數(shù)據(jù)格式化操作并不存在前后時間差,而是同時進(jìn)行的。

Hadoop的MapReduce執(zhí)行流程圖

  2)Map 映射:

  是 Hadoop 并行性質(zhì)發(fā)揮的地方。根據(jù)用戶指定的map過程,MapReduce 嘗試在數(shù)據(jù)所在機(jī)器上執(zhí)行該 map 程序。在 HDFS中,文件數(shù)據(jù)是被復(fù)制多份的,所以計算將會選擇擁有此數(shù)據(jù)的最空閑的節(jié)點(diǎn)。

  在這一部分,map內(nèi)部具體實(shí)現(xiàn)過程,可以由用戶自定義。

  3)Shuffle 派發(fā):

  Shuffle 過程是指Mapper 產(chǎn)生的直接輸出結(jié)果,經(jīng)過一系列的處理,成為最終的 Reducer 直接輸入數(shù)據(jù)為止的整個過程。這是mapreduce的核心過程。該過程可以分為兩個階段:

  Mapper 端的Shuffle:由 Mapper 產(chǎn)生的結(jié)果并不會直接寫入到磁盤中,而是先存儲在內(nèi)存中,當(dāng)內(nèi)存中的數(shù)據(jù)量達(dá)到設(shè)定的閥值時,一次性寫入到本地磁盤中。并同時進(jìn)行 sort(排序)、combine(合并)、partition(分片)等操作。其中,sort 是把 Mapper 產(chǎn) 生的結(jié)果按照 key 值進(jìn)行排序;combine 是把key值相同的記錄進(jìn)行合并;partition 是把 數(shù)據(jù)均衡的分配給 Reducer。

  Reducer 端的 Shuffle:由于Mapper和Reducer往往不在同一個節(jié)點(diǎn)上運(yùn)行,所以 Reducer 需要從多個節(jié)點(diǎn)上下載Mapper的結(jié)果數(shù)據(jù),并對這些數(shù)據(jù)進(jìn)行處理,然后才能被 Reducer處理。

  4)Reduce 縮減:

  Reducer 接收形式的數(shù)據(jù)流,形成形式的輸出,具體的過程可以由用戶自定義,最終結(jié)果直接寫入hdfs。每個reduce進(jìn)程會對應(yīng)一個輸出文件,名稱以part-開頭。

 歡迎補(bǔ)充。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點(diǎn)與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

本文標(biāo)題:Hadoop的MapReduce執(zhí)行流程圖-創(chuàng)新互聯(lián)
網(wǎng)頁鏈接:http://muchs.cn/article46/dgehhg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供外貿(mào)建站網(wǎng)站制作、面包屑導(dǎo)航網(wǎng)站排名、網(wǎng)站改版、關(guān)鍵詞優(yōu)化

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站建設(shè)網(wǎng)站維護(hù)公司