MapReduce流程有哪些-創(chuàng)新互聯(lián)

本篇內(nèi)容介紹了“MapReduce流程有哪些”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

目前成都創(chuàng)新互聯(lián)已為上千多家的企業(yè)提供了網(wǎng)站建設(shè)、域名、網(wǎng)頁(yè)空間、網(wǎng)站托管、服務(wù)器租用、企業(yè)網(wǎng)站設(shè)計(jì)、襄州網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶(hù)導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶(hù)和合作伙伴齊心協(xié)力一起成長(zhǎng),共同發(fā)展。

MapReduce是一個(gè)基于yarn的分布式、離線(xiàn)、并行的計(jì)算框架,主要職責(zé)是處理海量數(shù)據(jù)集,是Hadoop生態(tài)圈中一個(gè)非常重要的一個(gè)工具,所以MapReduce是大數(shù)據(jù)學(xué)習(xí)的一個(gè)很關(guān)鍵的知識(shí)點(diǎn),需要大家好好掌握!

MapReduce其中包含許多組件,但最主要的還是Job提交和Map、Reduce的全流程這兩個(gè)部分,學(xué)習(xí)中只要把握好這兩條主線(xiàn)理清楚細(xì)節(jié)串成一個(gè)知識(shí)體系,那么MapReduce的學(xué)習(xí)就會(huì)得心應(yīng)手了。關(guān)于Job作業(yè)的提交流程在Hadoop權(quán)威指南這本書(shū)上有相當(dāng)詳細(xì)的步驟解析和圖示說(shuō)明,那么這次總結(jié)主要關(guān)于MapReduce過(guò)程中海量數(shù)據(jù)是怎么被提取并在MapTask和ReduceTask中被處理,以及其中涉及運(yùn)用的組件,讓我們一起來(lái)看看吧。

MapReduce流程有哪些

上面的圖從整體上描述了整個(gè)MapRduce流程,大致分為五個(gè)步驟

1、input(map端讀取分片數(shù)據(jù))--->2、Map處理--->3、shuffle過(guò)程--->4、reduce處理--->5、output(reduce端輸出處理結(jié)果)現(xiàn)在我們一步步來(lái)分析解釋這個(gè)過(guò)程。注:MP的整個(gè)過(guò)程中數(shù)據(jù)結(jié)構(gòu)為:key-value

1、Map端讀取數(shù)據(jù)

a、在讀取之前,客戶(hù)端會(huì)對(duì)數(shù)據(jù)進(jìn)行切片處理,分片機(jī)制如下,一個(gè)分片對(duì)應(yīng)一個(gè)map,可調(diào)整客戶(hù)端的塊大小,minSize,maxSize改變map數(shù)量,minSize默認(rèn)值是1,maxSize默認(rèn)是long的大值

b、如下圖所示,先對(duì)數(shù)據(jù)進(jìn)行TextInputFormat格式化,然后lineRecordReader循環(huán)調(diào)用

nextKeyValue、getCurrentKey、getCurrentValue等方法將數(shù)據(jù)以<K,V>形式獲取到MapTask

c、切片讀取細(xì)節(jié):每次讀取都往下多讀取一行(第一個(gè)切片);下一個(gè)切片永遠(yuǎn)拋棄第一行;最后一個(gè)切片不能多讀一行

MapReduce流程有哪些

2、Map處理

a、在Map端,調(diào)用我們按照業(yè)務(wù)邏輯編寫(xiě)的map()方法,每一行調(diào)用一次map()方法對(duì)數(shù)據(jù)進(jìn)行處理,有且僅有一次,分別在調(diào)用map方法前調(diào)用setup()方法和在在調(diào)用map方法后調(diào)用cleanup()方法

在這個(gè)階段,數(shù)據(jù)會(huì)被分解成一個(gè)個(gè)<K,V>形式的鍵值對(duì)

b、在這個(gè)階段,可以有一個(gè)combiner過(guò)程,將數(shù)據(jù)進(jìn)行局部整合(當(dāng)數(shù)據(jù)量太大時(shí)),combiner能調(diào)用

MapReduce流程有哪些

3、shuffle過(guò)程:是指數(shù)據(jù)從Map端輸出到Reduce端輸入這中間對(duì)數(shù)據(jù)的操作過(guò)程(數(shù)據(jù)分區(qū)、排序、緩存)

a、輸出從map端輸出后,會(huì)進(jìn)入到outputCollector,一個(gè)數(shù)據(jù)收集器,然后由數(shù)據(jù)收集器將數(shù)據(jù)傳進(jìn)一個(gè)有20%保留區(qū)的環(huán)形緩沖區(qū)(一般是100M)

b、當(dāng)數(shù)據(jù)在環(huán)形緩沖區(qū)溢出時(shí),會(huì)有一個(gè)spiller溢出器,在溢出器中會(huì)將數(shù)據(jù)調(diào)用getPartition(k,v,num)方法分區(qū),然后根據(jù)hashcode在分區(qū)內(nèi)進(jìn)行快速排序,之后將數(shù)據(jù)發(fā)往Reduce

4、reduce處理

a、經(jīng)過(guò)shuffle過(guò)程處理的數(shù)據(jù),是分區(qū)并排序的index索引文件,而reducetask框架從文件中讀取一個(gè)key傳遞給reduce方法,同時(shí)傳一個(gè)value迭代器

b、Value迭代器的hasnext方法會(huì)判斷文件中的下一個(gè)key是否是傳入時(shí)的key(如果是,則返回該value,如果不是,則停止,轉(zhuǎn)而調(diào)用下一個(gè)key)

c、看起來(lái)的效果,reducetask是將數(shù)據(jù)事先分組,每組調(diào)用一次reduce方法(其實(shí)不是)

d、reducetask處理完后,將所有分區(qū)文件進(jìn)行歸并排序生成大文件輸出(默認(rèn)輸出到hdfs)

e、MapReduce流程有哪些

5、output(reduce端輸出處理結(jié)果)

對(duì)數(shù)據(jù)進(jìn)行TextOutputFormat處理,然后lineRecordWritor循環(huán)調(diào)用

nextKeyValue、getCurrentKey、getCurrentValue,輸出到外部文件系統(tǒng)(hdfs)

“MapReduce流程有哪些”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線(xiàn),公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性?xún)r(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專(zhuān)為企業(yè)上云打造定制,能夠滿(mǎn)足用戶(hù)豐富、多元化的應(yīng)用場(chǎng)景需求。

當(dāng)前標(biāo)題:MapReduce流程有哪些-創(chuàng)新互聯(lián)
轉(zhuǎn)載注明:http://muchs.cn/article24/dddgje.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站收錄、面包屑導(dǎo)航搜索引擎優(yōu)化、Google網(wǎng)站策劃、營(yíng)銷(xiāo)型網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

小程序開(kāi)發(fā)