hadoop家族學習路線圖之hadoop產(chǎn)品介紹-創(chuàng)新互聯(lián)

大數(shù)據(jù)這個詞也許幾年前你聽著還會覺得陌生,但我相信你現(xiàn)在聽到hadoop這個詞的時候你應該都會覺得“熟悉”!越來越發(fā)現(xiàn)身邊從事hadoop開發(fā)或者是正在學習hadoop的人變多了。作為一個hadoop入門級的新手,你會覺得哪些地方很難呢?運行環(huán)境的搭建恐怕就已經(jīng)足夠讓新手頭疼。如果每一個發(fā)行版hadoop都可以做到像大快DKHadoop那樣把各種環(huán)境搭建集成到一起,一次安裝搞定所有,那對于新手來說將是件多么美妙的事情!

成都創(chuàng)新互聯(lián)公司從2013年開始,先為和布克賽爾蒙古等服務建站,和布克賽爾蒙古等地企業(yè),進行企業(yè)商務咨詢服務。為和布克賽爾蒙古企業(yè)網(wǎng)站制作PC+手機+微官網(wǎng)三網(wǎng)同步一站式服務解決您的所有建站問題。

閑話扯得稍微多了點,回歸整體。這篇準備給大家hadoop新入門的朋友分享一些hadoop的基礎知識——hadoop家族產(chǎn)品。通過對hadoop家族產(chǎn)品的認識,進一步幫助大家學習好hadoop!同時,也歡迎大家提出寶貴意見!

一、Hadoop定義

Hadoop是一個大家族,是一個開源的生態(tài)系統(tǒng),是一個分布式運行系統(tǒng),是基于Java編程語言的架構。不過它最高明的技術還是HDFS和MapReduce,使得它可以分布式處理海量數(shù)據(jù)。

二、Hadoop產(chǎn)品

hadoop家族學習路線圖之hadoop產(chǎn)品介紹

HDFS(分布式文件系統(tǒng)):

它與現(xiàn)存的文件系統(tǒng)不同的特性有很多,比如高度容錯(即使中途出錯,也能繼續(xù)運行),支持多媒體數(shù)據(jù)和流媒體數(shù)據(jù)訪問,高效率訪問大型數(shù)據(jù)集合,數(shù)據(jù)保持嚴謹一致,部署成本降低,部署效率提高等,如圖是HDFS的基礎架構。

hadoop家族學習路線圖之hadoop產(chǎn)品介紹

MapReduce/Spark/Storm(并行計算架構):

1、數(shù)據(jù)處理方式來說分離線計算和在線計算:

角色

描述

MapReduce

MapReduce常用于離線的復雜的大數(shù)據(jù)計算

Storm

Storm用于在線的實時的大數(shù)據(jù)計算,Storm的實時主要是一條一條數(shù)據(jù)處理;

Spark

可以用于離線的也可用于在線的實時的大數(shù)據(jù)計算,Spark的實時主要是處理一個個時間區(qū)域的數(shù)據(jù),所以說Spark比較靈活。

2、數(shù)據(jù)存儲位置來說分磁盤計算和內存計算:

角色

描述

MapReduce

數(shù)據(jù)存在磁盤中

Spark和Strom

數(shù)據(jù)存在內存中

Pig/Hive(Hadoop編程):

角色

描述

Pig

是一種高級編程語言,在處理半結構化數(shù)據(jù)上擁有非常高的性能,可以幫助我們縮短開發(fā)周期。

Hive

是數(shù)據(jù)分析查詢工具,尤其在使用類SQL查詢分析時顯示出極高的性能??梢栽诜址昼娡瓿蒃TL要一晚上才能完成的事情,這就是優(yōu)勢,占了先機!

HBase/Sqoop/Flume(數(shù)據(jù)導入與導出):

角色

描述

HBase

是運行在HDFS架構上的列存儲數(shù)據(jù)庫,并且已經(jīng)與Pig/Hive很好地集成。通過Java API可以近無縫地使用HBase。

Sqoop

設計的目的是方便從傳統(tǒng)數(shù)據(jù)庫導入數(shù)據(jù)到Hadoop數(shù)據(jù)集合(HDFS/Hive)。

Flume

設計的目的是便捷地從日志文件系統(tǒng)直接把數(shù)據(jù)導入到Hadoop數(shù)據(jù)集合(HDFS)中。

以上這些數(shù)據(jù)轉移工具都極大地方便了使用的人,提高了工作效率,把精力專注在業(yè)務分析上。

ZooKeeper/Oozie(系統(tǒng)管理架構):

角色

描述

ZooKeeper

是一個系統(tǒng)管理協(xié)調架構,用于管理分布式架構的基本配置。它提供了很多接口,使得配置管理任務簡單化。

Oozie

Oozie服務是用于管理工作流。用于調度不同工作流,使得每個工作都有始有終。這些架構幫助我們輕量化地管理大數(shù)據(jù)分布式計算架構。

Ambari/Whirr(系統(tǒng)部署管理):

角色

描述

Ambari

幫助相關人員快捷地部署搭建整個大數(shù)據(jù)分析架構,并且實時監(jiān)控系統(tǒng)的運行狀況。

Whirr

Whirr的主要作用是幫助快速地進行云計算開發(fā)。

Mahout(機器學習):

Mahout旨在幫助我們快速地完成高智商的系統(tǒng)。其中已經(jīng)實現(xiàn)了部分機器學習的邏輯。這個架構可以讓我們快速地集成更多機器學習的智能。

另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。

名稱欄目:hadoop家族學習路線圖之hadoop產(chǎn)品介紹-創(chuàng)新互聯(lián)
文章網(wǎng)址:http://muchs.cn/article6/cdehog.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站制作網(wǎng)站建設、服務器托管網(wǎng)站改版、ChatGPT、關鍵詞優(yōu)化

廣告

聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設公司