零基礎(chǔ)學習大數(shù)據(jù)Hadoop需要什么準備?Hadoop如何發(fā)展起來的?-創(chuàng)新互聯(lián)

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),是用Java語言開發(fā)的一個開源分布式計算平臺,適合大數(shù)據(jù)的分布式存儲和計算平臺。今天加米谷大數(shù)據(jù)就來簡單介紹一下Hadoop的簡史,以及學習Hadoop前要做哪些準備。
狹義上,Hadoop就是單獨指代Hadoop這個軟件;

10年積累的做網(wǎng)站、成都網(wǎng)站設(shè)計經(jīng)驗,可以快速應對客戶對網(wǎng)站的新想法和需求。提供各種問題對應的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡服務。我雖然不認識你,你也不認識我。但先網(wǎng)站設(shè)計后付款的網(wǎng)站建設(shè)流程,更有汝陽免費網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

廣義上,Hadoop指代大數(shù)據(jù)的一個生態(tài)圈,包括很多其他的軟件。
零基礎(chǔ)學習大數(shù)據(jù)Hadoop需要什么準備?Hadoop如何發(fā)展起來的?

Hadoop的起源

1、2001年,Nutch問世。Nutch的設(shè)計目標是構(gòu)建一個大型的全網(wǎng)搜索引擎,包括網(wǎng)頁抓取、索引、查詢等功能,但隨著抓取網(wǎng)頁數(shù)量的增加,遇到了嚴重的可擴展性問題;

2、2003-2004年,Google發(fā)布論文:GFS、MapReduce,受此啟發(fā)的Doug Cutting等人實現(xiàn)了NDFS(HDFS的前身)和MapReduce機制,使Nutch性能飆升;

GFS:Google的分布式文件系統(tǒng)Google File System

MapReduce:Google的MapReduce開源分布式并行計算框架

3、2005年,Hadoop作為Lucene的子項目Nutch的一部分正式引入Apache基金會;

4、2006年,Hadoop(HDFS+MapReduce)從Nutch中剝離成為獨立項目。Doug Cutting加入Yahoo,領(lǐng)導Hadoop的開發(fā)。

.在入門學習大數(shù)據(jù)的過程當中有遇見學習,行業(yè),缺乏系統(tǒng)學習路線,系統(tǒng)學習規(guī)劃,歡迎你加入我的大數(shù)據(jù)學習交流裙:529867072 ,裙文件有我這幾年整理的大數(shù)據(jù)學習手冊,開發(fā)工具,PDF文檔書籍,你可以自行下載。

Hadoop的發(fā)展簡史

5、2006年,Apache Hadoop項目正式啟動以支持MapReduce和HDFS的獨立發(fā)展;Yahoo建設(shè)了第一個Hadoop集群用于開發(fā);4月,第一個Apache Hadoop發(fā)布;11月,Google發(fā)表了Bigtable論文,Hbase的創(chuàng)建的靈感來源;

BigTable:一個大型的分布式數(shù)據(jù)庫

演變關(guān)系:

GFS—->HDFS

Google MapReduce—->Hadoop MapReduce

BigTable—->HBase

6、2007年,第一個Hadoop用戶組會議召開,社區(qū)貢獻開始急劇上升;同年,F(xiàn)acebook開始使用Hadoop,百度開始使用Hadoop做離線處理,中國移動開始研究使用Hadoop;

7、2008年,Hive、HBase問世,Hadoop成為Apache頂級項目。8月,第一個Hadoop商業(yè)化公司Cloudera成立。同年,淘寶開始使用Hadoop;

8、2009年-2012年,Hadoop不斷發(fā)展。

2009年Cloudera推出CDH平臺(首個Hadoop發(fā)行版),完全由開放源碼軟件組成?!禜adoop權(quán)威指南》初版出版(被譽為Hadoop圣經(jīng));2010年,HBase、Hive( Facebook) 、Pig脫離Hadoop,均成為Apache頂級項目;Hadoop社區(qū)建立大量新組件(Crunch,Sqoop,F(xiàn)lume,Oozie等)來擴展Hadoop的使用場景和可用性;2011年,ZooKeeper 脫離Hadoop,成為Apache頂級項目;加米谷大數(shù)據(jù)培訓機構(gòu),6月大數(shù)據(jù)開發(fā)0基礎(chǔ)班、提高班,即將開課,預報名中... 2012年,Yarn成為Hadoop子項目;

9、2014年,Spark逐漸代替MapReduce成為Hadoop的缺省執(zhí)行引擎,并成為Apache基金會頂級項目。

Hadoop能干什么?

大數(shù)據(jù)存儲:分布式存儲

日志處理:擅長日志分析

ETL:數(shù)據(jù)抽取到oracle、mysql、DB2、mongdb及主流數(shù)據(jù)庫

機器學習: 比如Apache Mahout項目

搜索引擎:Hadoop + lucene實現(xiàn)

數(shù)據(jù)挖掘:目前比較流行的廣告推薦,個性化廣告推薦

Hadoop是專為離線和大規(guī)模數(shù)據(jù)分析而設(shè)計的,并不適合那種對幾個記錄隨機讀寫的在線事務處理模式。

學習Hadoop前的準備:

準備電腦(用于學習):內(nèi)存最少8G、CPU起碼四核(cpu i5 系列)

支持平臺:Linux(CentOS)(產(chǎn)品開發(fā)和運行的平臺)

所需軟件:以Linux為例

Java8.0,必須安裝,建議選擇Oracle公司發(fā)行的Java版本。
ssh 必須安裝并且保證 sshd一直運行,以便用Hadoop 腳本管理遠端Hadoop守護進程。
安裝所需軟件:以Linux為例

$ sudo yum install ssh

$ sudo yum install rsync

下載Hadoop的發(fā)行版并解壓安裝

另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。

網(wǎng)頁題目:零基礎(chǔ)學習大數(shù)據(jù)Hadoop需要什么準備?Hadoop如何發(fā)展起來的?-創(chuàng)新互聯(lián)
路徑分享:http://muchs.cn/article48/dgdhhp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供定制開發(fā)、網(wǎng)站內(nèi)鏈、云服務器、ChatGPT、營銷型網(wǎng)站建設(shè)電子商務

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站網(wǎng)頁設(shè)計