hadoop和spark的區(qū)別介紹

學(xué)習(xí)hadoop已經(jīng)有很長(zhǎng)一段時(shí)間了,好像是二三月份的時(shí)候朋友給了一個(gè)國(guó)產(chǎn)Hadoop發(fā)行版下載地址,因?yàn)檫€是在學(xué)習(xí)階段就下載了一個(gè)三節(jié)點(diǎn)的學(xué)習(xí)版玩一下。在研究、學(xué)習(xí)hadoop的朋友可以去找一下看看(發(fā)行版 大快DKhadoop,去大快的網(wǎng)站上應(yīng)該可以下載到的。)
hadoop和spark的區(qū)別介紹
在學(xué)習(xí)hadoop的時(shí)候查詢一些資料的時(shí)候經(jīng)常會(huì)看到有比較hadoop和spark的,對(duì)于初學(xué)者來說難免會(huì)有點(diǎn)搞不清楚這二者到底有什么大的區(qū)別。我記得剛開始接觸大數(shù)據(jù)這方面內(nèi)容的時(shí)候,也就這個(gè)問題查閱了一些資料,在《FreeRCH大數(shù)據(jù)一體化開發(fā)框架》的這篇說明文檔中有就Hadoop和spark的區(qū)別進(jìn)行了簡(jiǎn)單的說明,但我覺得解釋的也不是特別詳細(xì)。我把個(gè)人認(rèn)為解釋的比較好的一個(gè)觀點(diǎn)分享給大家:
它主要是從四個(gè)方面對(duì)Hadoop和spark進(jìn)行了對(duì)比分析:
1、目的:首先需要明確一點(diǎn),hadoophe spark 這二者都是大數(shù)據(jù)框架,即便如此二者各自存在的目的是不同的。Hadoop是一個(gè)分布式的數(shù)據(jù)基礎(chǔ)設(shè)施,它是將龐大的數(shù)據(jù)集分派到由若干臺(tái)計(jì)算機(jī)組成的集群中的多個(gè)節(jié)點(diǎn)進(jìn)行存儲(chǔ)。Spark是一個(gè)專門用來對(duì)那些分布式存儲(chǔ)的大數(shù)據(jù)進(jìn)行處理的工具,spark本身并不會(huì)進(jìn)行分布式數(shù)據(jù)的存儲(chǔ)。
2、兩者的部署:Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。所以使用Hadoop則可以拋開spark,而直接使用Hadoop自身的mapreduce完成數(shù)據(jù)的處理。Spark是不提供文件管理系統(tǒng)的,但也不是只能依附在Hadoop上,它同樣可以選擇其他的基于云的數(shù)據(jù)系統(tǒng)平臺(tái),但spark默認(rèn)的一般選擇的還是hadoop。
3、數(shù)據(jù)處理速度:Spark,擁有Hadoop、 MapReduce所具有能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的的優(yōu)點(diǎn);但不同于MapReduce的是Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,
Spark 是一種與?Hadoop?相似的開源集群計(jì)算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。
4、數(shù)據(jù)安全恢復(fù):Hadoop每次處理的后的數(shù)據(jù)是寫入到磁盤上,所以其天生就能很有彈性的對(duì)系統(tǒng)錯(cuò)誤進(jìn)行處理;spark的數(shù)據(jù)對(duì)象存儲(chǔ)在分布于數(shù)據(jù)集群中的叫做彈性分布式數(shù)據(jù)集中,這些數(shù)據(jù)對(duì)象既可以放在內(nèi)存,也可以放在磁盤,所以spark同樣可以完成數(shù)據(jù)的安全恢復(fù)。

網(wǎng)站建設(shè)哪家好,找成都創(chuàng)新互聯(lián)公司!專注于網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、小程序開發(fā)、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項(xiàng)目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了新沂免費(fèi)建站歡迎大家使用!

本文標(biāo)題:hadoop和spark的區(qū)別介紹
URL標(biāo)題:http://muchs.cn/article44/pdpihe.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站收錄、網(wǎng)站策劃、軟件開發(fā)、建站公司云服務(wù)器、全網(wǎng)營(yíng)銷推廣

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站建設(shè)