Hadoop生態(tài)之分析MapReduce及Hive

這篇文章主要講解了“Hadoop生態(tài)之分析MapReduce及Hive”，文中的講解內(nèi)容簡單清晰，易于學習與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學習“Hadoop生態(tài)之分析MapReduce及Hive”吧！

創(chuàng)新互聯(lián)專注于井陘網(wǎng)站建設服務及定制，我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗。熱誠為您提供井陘營銷型網(wǎng)站建設，井陘網(wǎng)站制作、井陘網(wǎng)頁設計、井陘網(wǎng)站官網(wǎng)定制、小程序制作服務，打造井陘網(wǎng)絡公司原創(chuàng)品牌,更為您提供井陘網(wǎng)站排名全網(wǎng)營銷落地服務。

1.計算框架

Hadoop 是一個計算框架，目前大型數(shù)據(jù)計算框架常用的大致有五種：

僅批處理框架：Apache hadoop.
僅流處理框架：Apache Storm、Apache Samza.
混合框架：Apache Spark、Apache Flink.

這其中名氣最大、使用最廣的當屬 Hadoop 和 Spark。

雖然兩者都被稱為大數(shù)據(jù)框架，但實際層級不同。Hadoop 是一個分布式數(shù)據(jù)基礎設施，包括計算框架 MapReduce、分布式文件系統(tǒng) HDFS、YARN 等。而Spark 是專門用來對分布式存儲的大數(shù)據(jù)的處理工具，并不會進行數(shù)據(jù)存儲，更像是 MapReduce 的替代。

在使用場景上，Hadoop 主要用于離線數(shù)據(jù)計算，Spark更適用于需要精準實時的場景。

2. MapReduce

2.1 MapReduce 是什么

一個基于 Java 的并行分布式計算框架。

前文有提到 HDFS 提供了基于主從結構的分布式文件系統(tǒng)，基于此存儲服務支持，MapReduce 可以實現(xiàn)任務的分發(fā)、跟蹤、執(zhí)行等工作，并收集結果。

2.2 MapReduce 組成

MapReduce 主要思想講的通俗一點就是將一個大的計算拆分成 Map(映射)和 Reduce(化簡)。說到這里，其實 JAVA8 在引入 Lambda 后，也有 map 和 reduce 方法。下面是一段 Java 中的用法：

List<Integer> nums = Arrays.asList(1, 2, 3); List<Integer> doubleNums = nums.stream().map(number -> number * 2).collect(Collectors.toList()); 結果:[2,4,6] Optional<Integer> sum = nums.stream().reduce(Integer::sum); 結果:[6]

代碼很簡單，map 負責歸類，reduce 負責計算。而 Hadoop 中的 MapReduce 也有異曲同工之處。

下面結合官方案例 WordCount 進行分析：

public class WordCount {  // Mapper泛型類，4個參數(shù)分別代表輸入鍵、值，輸出鍵、值類型  public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>{  private final static IntWritable one = new IntWritable(1);  private Text word = new Text();  public void map(Object key, Text value, Context context) throws IOException, InterruptedException {  // 字符解析  StringTokenizer itr = new StringTokenizer(value.toString());  while (itr.hasMoreTokens()) {  // nextToken()：返回從當前位置到下一個分隔符的字符串  word.set(itr.nextToken());  context.write(word, one);  }  }  }    // Reducer同樣也是四個參數(shù)  public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> {  private IntWritable result = new IntWritable();  public void reduce(Text key, Iterable<IntWritable> values,Context context) throws   IOException,InterruptedException {  int sum = 0;  // 循環(huán)values，并記錄“單詞”個數(shù)  for (IntWritable val : values) {  sum += val.get();  }  result.set(sum);  context.write(key, result);  }  }

在這段代碼中，不難看出程序核心是 map 函數(shù)和 reduce 函數(shù)。是否 MapReduce 就是由這兩者組成的?接著往下看。

2.3 Map 和 Reduce

2.3.1 Map

在 WordCount 案例中，明顯看到 map 函數(shù)的輸入主要是一個

Context 在這里暫時性忽略，其是 Mapper 類的內(nèi)部抽象類，一般計算中不會用到，可以先當做“上下文”理解。

map 函數(shù)計算過程是: 將這行文本中的單詞提取出來，針對每個單詞輸出一個

2.3.2 Reduce

接著就來看看 reduce ,這里輸入?yún)?shù) Values 就是上面提到的由很多個 1 組成的集合，而 Key 就是具體“單詞” word。

它的計算過程是: 將集合里的1求和，再將單詞(word)與這個和(sum)組成一個

假設有兩個數(shù)據(jù)塊的文本數(shù)據(jù)需要進行詞頻統(tǒng)計，MapReduce 計算過程如下圖所示：

到這都很容易理解，畢竟只是個 HelloWorld 的例子~，但整個MapReduce過程中最關鍵的部分其實是在 map 到 reduce 之間。

還拿上面例子來說：統(tǒng)計相同單詞在所有輸入數(shù)據(jù)中出現(xiàn)的次數(shù)，一個 Map 只能處理一部分數(shù)據(jù)，而熱點單詞就很可能會出現(xiàn)在所有 Map 中了，意味著同一單詞必須要合并到一起統(tǒng)計才能得到正確結果。這種數(shù)據(jù)關聯(lián)幾乎在所有的大數(shù)據(jù)計算場景都需要處理，如果是例子這種的當然只對 Key 合并就OK了，但類似數(shù)據(jù)庫 join 操作這種較復雜的，就需對兩種類型(或更多)的數(shù)據(jù)依據(jù) Key 關聯(lián)。

這個數(shù)據(jù)關聯(lián)操作在 MapReduce中的叫做：shuffle。

2.4 shuffle

shuffle 從字面意思來看，洗牌。下面是一個完整的MR過程，看一看如何洗牌。

先看左半邊

1. 從 HDFS 中讀取數(shù)據(jù)，輸入數(shù)據(jù)塊到一個個的 map，其中 map 完成計算時，計算結果會存儲到本地文件系統(tǒng)。而當 map 快要進行完時，就會啟動 shuffle 過程。

2. 如圖，shuffle 也可分為兩種，在Map端的是 Map shuffle。大致過程為：Map 任務進程會調用一個 Partitioner 接口，對 Map 產(chǎn)生的每個

這里就實現(xiàn)了對 Map 結果的分區(qū)、排序、分割，以及將同一分區(qū)的輸出合并寫入磁盤，得到一個分區(qū)有序的文件。這樣不管 Map 在哪個服務器節(jié)點，相同的 Key 一定會被發(fā)送給相同 Reduce 進程。Reduce 進程對收到的

再看右半邊

1. Reduce shuffle，又可分為復制 Map 輸出、排序合并兩階段。

Copy：Reduce 任務從各個 Map 任務拖取數(shù)據(jù)后，通知父 TaskTracker 狀態(tài)已更新，TaskTracker 通知 JobTracker。Reduce 會定期向JobTracker 獲取 Map 的輸出位置，一旦拿到位置，Reduce 任務會從此輸出對應的 TaskTracker 上復制輸出到本地，不會等到所有的Map任務結束。
Merge sort：
Copy 的數(shù)據(jù)先放入內(nèi)存緩沖區(qū)，若緩沖區(qū)放得下就把數(shù)據(jù)寫入內(nèi)存，即內(nèi)存到內(nèi)存 merge。
Reduce 向每個 Map 去拖取數(shù)據(jù)，內(nèi)存中每個 Map 對應一塊數(shù)據(jù)，當內(nèi)存緩存區(qū)中存儲的數(shù)據(jù)達到一定程度，開啟內(nèi)存中 merge，把內(nèi)存中數(shù)據(jù)merge 輸出到磁盤文件中，即內(nèi)存到磁盤 merge。
當屬于該 reduce 的 map 輸出全部拷貝完成，會在 reduce 上生成多個文件，執(zhí)行合并操作，即磁盤到磁盤 merge。此刻 Map 的輸出數(shù)據(jù)已經(jīng)是有序的，Merge 進行一次合并排序，所謂 Reduce 端的 sort 過程就是這個合并的過程。

2. 經(jīng)過上一步Reduce shuffle后，reduce進行最后的計算，將輸出寫入HDFS中。

以上便是 shuffle 大致四個步驟，關鍵是 map 輸出的 shuffle 到哪個 Reduce 進程，它由 Partitioner 來實現(xiàn)，MapReduce 框架默認的 Partitioner 用 Key 哈希值對 Reduce 任務數(shù)量取模，相同 Key 會落在相同的 Reduce 任務 ID 上。

public int getPartition(K2 key, V2 value, int numReduceTasks) {  return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;   }

如果對 Shuffle 總結一句話: 分布式計算將不同服務器中的數(shù)據(jù)合并到一起進行后續(xù)計算的過程。

shuffle 是大數(shù)據(jù)計算過程中神奇的地方，不管是 MapReduce 還是 Spark，只要是大數(shù)據(jù)批處理計算，一定會有 shuffle 過程，只有讓數(shù)據(jù)關聯(lián)起來，它的內(nèi)在關系和價值才會呈現(xiàn)。

3. Hive

上一部分介紹了 MapReduce，接下來簡單談談 Hive .

我覺得任何一項技術的出現(xiàn)都是為了解決某類問題， MapReduce 毫無疑問簡化了大數(shù)據(jù)開發(fā)的編程難度。但實際上進行數(shù)據(jù)計算更常用的手段可能是 SQL，那么有沒有辦法直接運行 SQL ?

3.1 Hive是什么

基于Hadoop的一個數(shù)據(jù)倉庫系統(tǒng)，定義了一種類SQL查詢語言：Hive SQL。

這里有一個名詞數(shù)據(jù)倉庫，數(shù)據(jù)倉庫是指：面向主題(Subject Oriented)、集成(Integrated)、相對穩(wěn)定(Non-Volatile)、反應歷史變化(Time Variant)的數(shù)據(jù)集合，用于支持管理決策。

這么說可能有點抽象，分解一下：

主題：數(shù)據(jù)倉庫針對某個主題來進行組織，指使用數(shù)據(jù)倉庫決策時所關心的重點方面。比如訂閱分析就可以當做一個主題。
集成：數(shù)據(jù)倉庫要將多個數(shù)據(jù)源數(shù)據(jù)存到一起，但數(shù)據(jù)以前的存儲方式不同，要經(jīng)過抽取、清洗、轉換。(也就是 ETL)
穩(wěn)定：保存的數(shù)據(jù)是一系列歷史快照，不允許修改，只能分析。
時變：會定期接收到新的數(shù)據(jù)，反應出新的數(shù)據(jù)變化。

現(xiàn)在再看下定義：數(shù)據(jù)倉庫是將多個數(shù)據(jù)源的數(shù)據(jù)按照一定的主題集成，進行抽取、清洗、轉換。且處理整合后的數(shù)據(jù)不允許隨意修改，只能分析，還需定期更新。

3.2 為什么是 Hive

了解了 Hive 的基礎定義，想一下：一個依賴于 HDFS 的數(shù)據(jù)倉庫在 Hadoop 環(huán)境中可以扮演什么角色?

前面說到，可不可以讓 SQL 直接運行在 Hadoop 平臺，這里的答案便是 Hive。它可以將 Hive SQL 轉換為 MapReduce 程序運行。

Hive 初期版本默認 Hive on Mapreduce

啟動 hive 前通常要先啟動 hdfs 和 yarn, 同時一般需要配置 MySQL，Hive 依賴于 HDFS 的數(shù)據(jù)存儲，但為了能操作 HDFS 上的數(shù)據(jù)集，要知道數(shù)據(jù)切分格式、存儲類型、地址等。這些信息通過一張表存儲，稱為元數(shù)據(jù)，可以存儲到 MySQL 中。

現(xiàn)在來看下 Hive 的部分命令
新建數(shù)據(jù)庫：create database xxx;
刪除數(shù)據(jù)庫：drop database xxx;
建表：
create table table_name(col_name data_type);
Hive 的表有兩個概念：**內(nèi)部表和外部表**。默認內(nèi)部表，簡單來說，內(nèi)部表數(shù)據(jù)存儲在每個表相應的HDFS目錄下。外部表的數(shù)據(jù)存在別處，要刪除這個外部表，該外部表所指向的數(shù)據(jù)是不會被刪除的，只會刪除外部表對應的元數(shù)據(jù)。
查詢：
select * from t_table **where** a<100 **and** b>1000;
連接查詢：
select a.*,b.* from t_a a join t_b b on a.name=b.name;

看到這里，可能會覺得我在寫 SQL, 沒錯，對于熟悉 SQL 的人來說，Hive 是非常易于上手的。

3.3 HIVE SQL To MapReduce

前面說到 HQL 可以‘轉換’為 MapReduce, 下面就來看看：一個 HQL 是如何轉化為 MapReduce 的Hive的基礎架構：

通過 Client 向 Hive 提交 SQL 命令。如果是 DDL，Hive 就會通過執(zhí)行引擎 Driver 將數(shù)據(jù)表的信息記錄在 Metastore 元數(shù)據(jù)組件中，這個組件通常用一個關系數(shù)據(jù)庫實現(xiàn)，記錄表名、字段名、字段類型、關聯(lián) HDFS 文件路徑等 Meta 信息(元信息)。

如果是DQL，Driver 就會將該語句提交給自己的編譯器進行語法分析、解析、優(yōu)化等一系列操作，最后生成一個 MapReduce 執(zhí)行計劃。再根據(jù)執(zhí)行計劃生成一個 MapReduce 的作業(yè)，提交給 Hadoop 的 MapReduce 計算框架處理。

比如輸入一條 select xxx from a ; 其執(zhí)行順序為：首先在 metastore 查詢--> sql 解析--> 查詢優(yōu)化---> 物理計劃--> 執(zhí)行 MapReduce。

感謝各位的閱讀，以上就是“Hadoop生態(tài)之分析MapReduce及Hive”的內(nèi)容了，經(jīng)過本文的學習后，相信大家對Hadoop生態(tài)之分析MapReduce及Hive這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是創(chuàng)新互聯(lián)，小編將為大家推送更多相關知識點的文章，歡迎關注！

網(wǎng)站名稱：Hadoop生態(tài)之分析MapReduce及Hive
文章URL：http://muchs.cn/article42/pdhehc.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供服務器托管、網(wǎng)站排名、建站公司、外貿(mào)網(wǎng)站建設、電子商務、品牌網(wǎng)站建設

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉載內(nèi)容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容