hadoop1.x MapReduce工作原理

讓客戶滿意是我們工作的目標，不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術通過有效、簡單的方式提供給客戶，將通過不懈努力成為客戶在信息化領域值得信任、有價值的長期合作伙伴，公司提供的服務項目有：域名注冊、網(wǎng)頁空間、營銷軟件、網(wǎng)站建設、蒲縣網(wǎng)站維護、網(wǎng)站推廣。

MapReduce 如何解決負載均衡和數(shù)據(jù)傾斜：

階段主要出在Map作業(yè)結束后，shuffer（洗牌）過程中，如何將map處理后的結果分成多少份，交由Reduce作業(yè)，使得每部分reduce作業(yè)盡可能均衡處理數(shù)據(jù)計算。

系統(tǒng)默認將partitions 按照Hash模運算分割（存儲對象的hash值與reduce的個數(shù)取模），這樣很容易出現(xiàn)數(shù)據(jù)傾斜，導致其中一個reduce作業(yè)分得大量數(shù)據(jù)計算，另一個ruduce作業(yè)基本上沒有任何數(shù)據(jù)處理。如何，解決的這種事情，就需要靠程序控制partitions的值

Sort：默認排序是按照字典排序的（按ASCII）

Shuffer階段比較的操作要執(zhí)行兩次，一次是map task之后的sort另一次是在從本次磁盤將partition數(shù)據(jù)拷貝到指定reduce 之前的合并，將符合統(tǒng)一范圍的key的數(shù)據(jù)歸并

hadoop1.x MapReduce工作原理

面試：

1.partition：將map輸出的數(shù)據(jù)，按照某種規(guī)則將數(shù)據(jù)劃分，分給哪一個reduce，默認使用hash模運算執(zhí)行

2.spill：

過程：map的內存緩存區(qū)數(shù)據(jù)填滿時，啟動一個單獨的線程，將數(shù)據(jù)按照一定比例寫入本地磁盤。

Sort：將數(shù)據(jù)按照大小排序（可自定義）默認字典排序

Combiner：（可有可無）將相同的K_V中的value加起來，減少溢寫磁盤的數(shù)據(jù)

hadoop1.x MapReduce工作原理

Shuffer的后半過程：

將map處理后放入map節(jié)點的本地磁盤的數(shù)據(jù)拷貝到rudece節(jié)點的內存中去，數(shù)據(jù)量少的話，直接交由reduce處理。數(shù)據(jù)量大的時候，同樣需要溢寫到磁盤中，按照K值相同的方法進行merge，然后在交由指定的reduce執(zhí)行

hadoop1.x MapReduce工作原理

修改默認hdfs的block大?。?/p>

這個需要修改hdfs-site.conf配置文件，增加全局參數(shù)dfs.block.size。

如下：

修改后參數(shù)，

把配置同步到其它節(jié)點，并重啟hdfs。

hadoop1.x MapReduce工作原理

分享標題：hadoop1.x MapReduce工作原理
網(wǎng)址分享：http://muchs.cn/article18/jpeodp.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供App設計、小程序開發(fā)、網(wǎng)站收錄、移動網(wǎng)站建設、全網(wǎng)營銷推廣、品牌網(wǎng)站制作

聲明：本網(wǎng)站發(fā)布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經(jīng)允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內容