MapReduce是什么

這篇文章主要介紹“MapReduce是什么”,在日常操作中,相信很多人在MapReduce是什么問(wèn)題上存在疑惑,小編查閱了各式資料,整理出簡(jiǎn)單好用的操作方法,希望對(duì)大家解答”MapReduce是什么”的疑惑有所幫助!接下來(lái),請(qǐng)跟著小編一起來(lái)學(xué)習(xí)吧!

10年積累的做網(wǎng)站、成都網(wǎng)站建設(shè)經(jīng)驗(yàn),可以快速應(yīng)對(duì)客戶(hù)對(duì)網(wǎng)站的新想法和需求。提供各種問(wèn)題對(duì)應(yīng)的解決方案。讓選擇我們的客戶(hù)得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識(shí)你,你也不認(rèn)識(shí)我。但先制作網(wǎng)站后付款的網(wǎng)站建設(shè)流程,更有播州免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

1 map函數(shù)的輸出先由MapReduce框架處理,然后再被發(fā)送到reduce函數(shù)。這一處過(guò)程根據(jù)鍵來(lái)對(duì)鍵/值對(duì)進(jìn)行排序和分組。

2 整個(gè)數(shù)據(jù)流的例子如圖2-1所示。在圖的底部是Unix的管道,模擬整個(gè)MapReduce的流程。

MapReduce是什么

                         MapReduce是什么 

圖2-2 MapReduce中單一reduce任務(wù)的數(shù)據(jù)流圖

10 reduce任務(wù)的數(shù)目并不是由輸入的大小來(lái)決定,而是單獨(dú)具體指定的。 如果有多個(gè)reducer,map任務(wù)會(huì)對(duì)其輸出進(jìn)行分區(qū),為每個(gè)reduce任務(wù)創(chuàng)建一個(gè)分區(qū)(partition)。每個(gè)分區(qū)包含許多鍵(及其關(guān)聯(lián)的值),但每個(gè)鍵的記錄都在同一個(gè)分區(qū)中。分區(qū)可以通過(guò)用戶(hù)定義的partitioner來(lái)控制,但通常是用默認(rèn)的分區(qū)工具,它使用的是hash函數(shù)來(lái)形成"木桶"鍵/值,這種方法效率很高。 

      一般情況下,多個(gè)reduce任務(wù)的數(shù)據(jù)流如圖2-3所示。此圖清楚地表明了map和reduce任務(wù)之間的數(shù)據(jù)流為什么要稱(chēng)為"shuffle"(洗牌),因?yàn)槊總€(gè)reduce任務(wù)的輸入都由許多map任務(wù)來(lái)提供。shuffle其實(shí)比此圖所顯示的更復(fù)雜,并且調(diào)整它可能會(huì)對(duì)作業(yè)的執(zhí)行時(shí)間產(chǎn)生很大的影響。

MapReduce是什么

圖 2-3 多個(gè)reduce任務(wù)的MapReduce數(shù)據(jù)流

11 有可能不存在reduce任務(wù),不需要shuffle的時(shí)候,這樣的情況是可能的,因?yàn)樘幚砜梢圆⑿羞M(jìn)行。在這種情況下,唯一的非本地節(jié)點(diǎn)數(shù)據(jù)傳輸是當(dāng)map任務(wù)寫(xiě)入到HDFS中(見(jiàn)圖2-4)。

MapReduce是什么

圖 2-4 MapReduce中沒(méi)有reduce任務(wù)的數(shù)據(jù)流

12 在集群上MapReduce作業(yè)的數(shù)量被可用帶寬限制,因此要保證map和reduce任務(wù)之間傳輸?shù)拇鷥r(jià)是最小的。Hadoop允許用戶(hù)聲明一個(gè)combiner,運(yùn)行在map的輸出上-- 該函數(shù)的輸出作為reduce函數(shù)的輸入。由于combiner是一個(gè)優(yōu)化方法,所以Hadoop不保證對(duì)于某個(gè)map的輸出記錄是否調(diào)用該方法,調(diào)用該方法多少次。換言之,不調(diào)用該方法或者調(diào)用該方法多次,reducer的輸出結(jié)果都一樣。

       combiner的規(guī)則限制著可用的函數(shù)類(lèi)型。Hadoop權(quán)威指南中舉了一個(gè)求最高氣溫和平均氣溫的例子,很好的說(shuō)明了這點(diǎn)。求最高氣溫就可以使用,求平均氣溫使用可能出錯(cuò)。因此combiner并不能取代reduce函數(shù)。雖然它可以幫助減少map和reduce之間的數(shù)據(jù)傳輸量,但是是否在MapReduce作業(yè)中使用combiner是需要慎重考慮的。

13 Hadoop提供了一個(gè)API來(lái)運(yùn)行MapReduce,并允許你用除java以外的語(yǔ)言來(lái)編寫(xiě)自己的map和reduce函數(shù)。Hadoop流使用Unix標(biāo)準(zhǔn)流作為Hadoop和程序之間的接口,所以可以使用任何語(yǔ)言,只要編寫(xiě)的MapReduce程序能夠讀取標(biāo)準(zhǔn)輸入,并寫(xiě)入到標(biāo)準(zhǔn)輸出。 流適用于文字處理,在文本模式下使用時(shí),它有一個(gè)面向行的數(shù)據(jù)視圖。

到此,關(guān)于“MapReduce是什么”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí),請(qǐng)繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編會(huì)繼續(xù)努力為大家?guī)?lái)更多實(shí)用的文章!

分享標(biāo)題:MapReduce是什么
轉(zhuǎn)載注明:http://muchs.cn/article4/piceoe.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站收錄搜索引擎優(yōu)化、云服務(wù)器、網(wǎng)頁(yè)設(shè)計(jì)公司、動(dòng)態(tài)網(wǎng)站域名注冊(cè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

網(wǎng)站建設(shè)網(wǎng)站維護(hù)公司