零基礎(chǔ)學習大數(shù)據(jù)Hadoop需要什么準備？Hadoop如何發(fā)展起來的？-創(chuàng)新互聯(lián)

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)，是用Java語言開發(fā)的一個開源分布式計算平臺，適合大數(shù)據(jù)的分布式存儲和計算平臺。今天加米谷大數(shù)據(jù)就來簡單介紹一下Hadoop的簡史，以及學習Hadoop前要做哪些準備。
狹義上，Hadoop就是單獨指代Hadoop這個軟件；

10年積累的做網(wǎng)站、成都網(wǎng)站設(shè)計經(jīng)驗，可以快速應對客戶對網(wǎng)站的新想法和需求。提供各種問題對應的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡服務。我雖然不認識你，你也不認識我。但先網(wǎng)站設(shè)計后付款的網(wǎng)站建設(shè)流程，更有汝陽免費網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

廣義上，Hadoop指代大數(shù)據(jù)的一個生態(tài)圈，包括很多其他的軟件。
零基礎(chǔ)學習大數(shù)據(jù)Hadoop需要什么準備？Hadoop如何發(fā)展起來的？

Hadoop的起源

1、2001年，Nutch問世。Nutch的設(shè)計目標是構(gòu)建一個大型的全網(wǎng)搜索引擎，包括網(wǎng)頁抓取、索引、查詢等功能，但隨著抓取網(wǎng)頁數(shù)量的增加，遇到了嚴重的可擴展性問題；

2、2003-2004年，Google發(fā)布論文：GFS、MapReduce，受此啟發(fā)的Doug Cutting等人實現(xiàn)了NDFS（HDFS的前身）和MapReduce機制，使Nutch性能飆升；

GFS：Google的分布式文件系統(tǒng)Google File System

MapReduce：Google的MapReduce開源分布式并行計算框架

3、2005年，Hadoop作為Lucene的子項目Nutch的一部分正式引入Apache基金會；

4、2006年，Hadoop（HDFS+MapReduce）從Nutch中剝離成為獨立項目。Doug Cutting加入Yahoo，領(lǐng)導Hadoop的開發(fā)。

.在入門學習大數(shù)據(jù)的過程當中有遇見學習，行業(yè)，缺乏系統(tǒng)學習路線，系統(tǒng)學習規(guī)劃，歡迎你加入我的大數(shù)據(jù)學習交流裙：529867072 ，裙文件有我這幾年整理的大數(shù)據(jù)學習手冊，開發(fā)工具，PDF文檔書籍，你可以自行下載。

Hadoop的發(fā)展簡史

5、2006年，Apache Hadoop項目正式啟動以支持MapReduce和HDFS的獨立發(fā)展；Yahoo建設(shè)了第一個Hadoop集群用于開發(fā)；4月，第一個Apache Hadoop發(fā)布；11月，Google發(fā)表了Bigtable論文，Hbase的創(chuàng)建的靈感來源；

BigTable：一個大型的分布式數(shù)據(jù)庫

演變關(guān)系：

GFS—->HDFS

Google MapReduce—->Hadoop MapReduce

BigTable—->HBase

6、2007年，第一個Hadoop用戶組會議召開，社區(qū)貢獻開始急劇上升；同年，F(xiàn)acebook開始使用Hadoop，百度開始使用Hadoop做離線處理，中國移動開始研究使用Hadoop；

7、2008年，Hive、HBase問世，Hadoop成為Apache頂級項目。8月，第一個Hadoop商業(yè)化公司Cloudera成立。同年，淘寶開始使用Hadoop；

8、2009年-2012年，Hadoop不斷發(fā)展。

2009年Cloudera推出CDH平臺（首個Hadoop發(fā)行版），完全由開放源碼軟件組成?！禜adoop權(quán)威指南》初版出版（被譽為Hadoop圣經(jīng)）；2010年，HBase、Hive( Facebook) 、Pig脫離Hadoop，均成為Apache頂級項目；Hadoop社區(qū)建立大量新組件（Crunch，Sqoop，F(xiàn)lume，Oozie等）來擴展Hadoop的使用場景和可用性；2011年，ZooKeeper 脫離Hadoop，成為Apache頂級項目；加米谷大數(shù)據(jù)培訓機構(gòu)，6月大數(shù)據(jù)開發(fā)0基礎(chǔ)班、提高班，即將開課，預報名中... 2012年，Yarn成為Hadoop子項目；

9、2014年，Spark逐漸代替MapReduce成為Hadoop的缺省執(zhí)行引擎，并成為Apache基金會頂級項目。

Hadoop能干什么？

大數(shù)據(jù)存儲：分布式存儲

日志處理：擅長日志分析

ETL：數(shù)據(jù)抽取到oracle、mysql、DB2、mongdb及主流數(shù)據(jù)庫

機器學習: 比如Apache Mahout項目

搜索引擎：Hadoop + lucene實現(xiàn)

數(shù)據(jù)挖掘：目前比較流行的廣告推薦，個性化廣告推薦

Hadoop是專為離線和大規(guī)模數(shù)據(jù)分析而設(shè)計的，并不適合那種對幾個記錄隨機讀寫的在線事務處理模式。

學習Hadoop前的準備：

準備電腦（用于學習）：內(nèi)存最少8G、CPU起碼四核（cpu i5 系列）

支持平臺：Linux(CentOS)（產(chǎn)品開發(fā)和運行的平臺）

所需軟件：以Linux為例

Java8.0，必須安裝，建議選擇Oracle公司發(fā)行的Java版本。
ssh 必須安裝并且保證 sshd一直運行，以便用Hadoop 腳本管理遠端Hadoop守護進程。
安裝所需軟件：以Linux為例

$ sudo yum install ssh

$ sudo yum install rsync

下載Hadoop的發(fā)行版并解壓安裝

另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn，海內(nèi)外云服務器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應用場景需求。

網(wǎng)頁題目：零基礎(chǔ)學習大數(shù)據(jù)Hadoop需要什么準備？Hadoop如何發(fā)展起來的？-創(chuàng)新互聯(lián)
路徑分享：http://muchs.cn/article48/dgdhhp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供定制開發(fā)、網(wǎng)站內(nèi)鏈、云服務器、ChatGPT、營銷型網(wǎng)站建設(shè)、電子商務

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

零基礎(chǔ)學習大數(shù)據(jù)Hadoop需要什么準備？Hadoop如何發(fā)展起來的？-創(chuàng)新互聯(lián)

零基礎(chǔ)學習大數(shù)據(jù)Hadoop需要什么準備？Hadoop如何發(fā)展起來的？-創(chuàng)新互聯(lián)