Hadoop大數(shù)據(jù)開發(fā)學習路線圖階段一

Hadoop發(fā)展到今天家族產(chǎn)品已經(jīng)非常豐富，能夠滿足不同場景的大數(shù)據(jù)處理需求。作為目前主流的大數(shù)據(jù)處理技術，市場上很多公司的大數(shù)據(jù)業(yè)務都是基于Hadoop開展，而且對很多場景已經(jīng)具有非常成熟的解決方案。

讓客戶滿意是我們工作的目標，不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術通過有效、簡單的方式提供給客戶，將通過不懈努力成為客戶在信息化領域值得信任、有價值的長期合作伙伴，公司提供的服務項目有：域名與空間、虛擬主機、營銷軟件、網(wǎng)站建設、順義網(wǎng)站維護、網(wǎng)站推廣。

作為開發(fā)人員掌握Hadoop及其生態(tài)內(nèi)框架的開發(fā)技術，就是進入大數(shù)據(jù)領域的必經(jīng)之路。

下面詳細介紹一下，學習Hadoop開發(fā)技術的路線圖。

Hadoop本身是用java開發(fā)的，所以對java的支持性非常好，但也可以使用其他語言。

下面的技術路線側重數(shù)據(jù)挖掘方向，因為Python開發(fā)效率較高所以我們使用Python來進行任務。

因為Hadoop是運行在Linux系統(tǒng)上的，所以還需要掌握Linux的知識。

第一階段：Hadoop生態(tài)架構技術

語言基礎

Java：掌握javase知識，多理解和實踐在Java虛擬機的內(nèi)存管理、以及多線程、線程池、設計模式、并行化就可以，不需要深入掌握。

Linux：系統(tǒng)安裝（命令行界面和圖形界面）、基本命令、網(wǎng)絡配置、Vim編輯器、進程管理、Shell腳本、虛擬機的菜單熟悉等等。

Python：基礎語法，數(shù)據(jù)結構，函數(shù)，條件判斷，循環(huán)等基礎知識。

環(huán)境準備

這里介紹在windows電腦搭建完全分布式，1主2從。

VMware虛擬機、Linux系統(tǒng)（Centos6.5）、Hadoop安裝包，這里準備好Hadoop完全分布式集群環(huán)境。

MapReduce

MapReduce分布式離線計算框架，是Hadoop核心編程模型。主要適用于大批量的集群任務，由于是批量執(zhí)行，故時效性偏低。

HDFS1.0/2.0

Hadoop分布式文件系統(tǒng)(HDFS)是一個高度容錯性的系統(tǒng)，適合部署在廉價的機器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問，非常適合大規(guī)模數(shù)據(jù)集上的應用。

Yarn（Hadoop2.0）

前期了解即可，Yarn是一個資源調(diào)度平臺，主要負責給任務分配資源。Yarn是一個公共的資源調(diào)度平臺，所有滿足條件的框架都可以使用Yarn來進行資源調(diào)度。

Hive

Hive是一個數(shù)據(jù)倉庫，所有的數(shù)據(jù)都是存儲在HDFS上的。使用Hive主要是寫Hql，非常類似于MySQL數(shù)據(jù)庫的Sql。其實Hive在執(zhí)行Hql，底層在執(zhí)行的時候還是執(zhí)行的MapRedce程序。

Spark

Spark 是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎，其是基于內(nèi)存的迭代式計算。Spark 保留了MapReduce 的優(yōu)點，而且在時效性上有了很大提高。

Spark Streaming

Spark Streaming是實時處理框架，數(shù)據(jù)是一批一批的處理。

Spark Hive

基于Spark的快速Sql檢索。Spark作為Hive的計算引擎，將Hive的查詢作為Spark的任務提交到Spark集群上進行計算，可以提高Hive查詢的性能。

Storm

Storm是一個實時計算框架，和MR的區(qū)別就是，MR是對離線的海量數(shù)據(jù)進行處理，而Storm是對實時新增的每一條數(shù)據(jù)進行處理，是一條一條的處理，可以保證數(shù)據(jù)處理的時效性。

Zookeeper

Zookeeper是很多大數(shù)據(jù)框架的基礎，它是集群的管理者。監(jiān)視著集群中各個節(jié)點的狀態(tài)根據(jù)節(jié)點提交的反饋進行下一步合理操作。

最終，將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶

Hbase

Hbase是一個NOSQL 數(shù)據(jù)庫，是一個Key-Value類型的數(shù)據(jù)庫，是高可靠、面向列的、可伸縮的、分布式的數(shù)據(jù)庫。

適用于非結構化的數(shù)據(jù)存儲，底層的數(shù)據(jù)存儲在HDFS上。

Kafka

kafka是一個消息中間件，在工作中常用于實時處理的場景中，作為一個中間緩沖層。

Flume

Flume是一個日志采集工具，常見的就是采集應用產(chǎn)生的日志文件中的數(shù)據(jù)，一般有兩個流程。

一個是Flume采集數(shù)據(jù)存儲到Kafka中，方便Storm或者SparkStreaming進行實時處理。

另一個流程是Flume采集的數(shù)據(jù)存儲到HDFS上，為了后期使用hadoop或者spark進行離線處理。

網(wǎng)頁標題：Hadoop大數(shù)據(jù)開發(fā)學習路線圖階段一
標題來源：http://muchs.cn/article14/gpghde.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供域名注冊、網(wǎng)站排名、外貿(mào)網(wǎng)站建設、建站公司、全網(wǎng)營銷推廣、品牌網(wǎng)站設計

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容