hadoop和spark的區(qū)別介紹

學(xué)習(xí)hadoop已經(jīng)有很長(zhǎng)一段時(shí)間了，好像是二三月份的時(shí)候朋友給了一個(gè)國(guó)產(chǎn)Hadoop發(fā)行版下載地址，因?yàn)檫€是在學(xué)習(xí)階段就下載了一個(gè)三節(jié)點(diǎn)的學(xué)習(xí)版玩一下。在研究、學(xué)習(xí)hadoop的朋友可以去找一下看看（發(fā)行版大快DKhadoop，去大快的網(wǎng)站上應(yīng)該可以下載到的。）
hadoop和spark的區(qū)別介紹
在學(xué)習(xí)hadoop的時(shí)候查詢一些資料的時(shí)候經(jīng)常會(huì)看到有比較hadoop和spark的，對(duì)于初學(xué)者來說難免會(huì)有點(diǎn)搞不清楚這二者到底有什么大的區(qū)別。我記得剛開始接觸大數(shù)據(jù)這方面內(nèi)容的時(shí)候，也就這個(gè)問題查閱了一些資料，在《FreeRCH大數(shù)據(jù)一體化開發(fā)框架》的這篇說明文檔中有就Hadoop和spark的區(qū)別進(jìn)行了簡(jiǎn)單的說明，但我覺得解釋的也不是特別詳細(xì)。我把個(gè)人認(rèn)為解釋的比較好的一個(gè)觀點(diǎn)分享給大家：
它主要是從四個(gè)方面對(duì)Hadoop和spark進(jìn)行了對(duì)比分析：
1、目的：首先需要明確一點(diǎn)，hadoophe spark 這二者都是大數(shù)據(jù)框架，即便如此二者各自存在的目的是不同的。Hadoop是一個(gè)分布式的數(shù)據(jù)基礎(chǔ)設(shè)施，它是將龐大的數(shù)據(jù)集分派到由若干臺(tái)計(jì)算機(jī)組成的集群中的多個(gè)節(jié)點(diǎn)進(jìn)行存儲(chǔ)。Spark是一個(gè)專門用來對(duì)那些分布式存儲(chǔ)的大數(shù)據(jù)進(jìn)行處理的工具，spark本身并不會(huì)進(jìn)行分布式數(shù)據(jù)的存儲(chǔ)。
2、兩者的部署：Hadoop的框架最核心的設(shè)計(jì)就是：HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ)，則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。所以使用Hadoop則可以拋開spark，而直接使用Hadoop自身的mapreduce完成數(shù)據(jù)的處理。Spark是不提供文件管理系統(tǒng)的，但也不是只能依附在Hadoop上，它同樣可以選擇其他的基于云的數(shù)據(jù)系統(tǒng)平臺(tái)，但spark默認(rèn)的一般選擇的還是hadoop。
3、數(shù)據(jù)處理速度：Spark，擁有Hadoop、 MapReduce所具有能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的的優(yōu)點(diǎn)；但不同于MapReduce的是Job中間輸出結(jié)果可以保存在內(nèi)存中，從而不再需要讀寫HDFS，
Spark 是一種與?Hadoop?相似的開源集群計(jì)算環(huán)境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越，換句話說，Spark 啟用了內(nèi)存分布數(shù)據(jù)集，除了能夠提供交互式查詢外，它還可以優(yōu)化迭代工作負(fù)載。
4、數(shù)據(jù)安全恢復(fù)：Hadoop每次處理的后的數(shù)據(jù)是寫入到磁盤上，所以其天生就能很有彈性的對(duì)系統(tǒng)錯(cuò)誤進(jìn)行處理；spark的數(shù)據(jù)對(duì)象存儲(chǔ)在分布于數(shù)據(jù)集群中的叫做彈性分布式數(shù)據(jù)集中，這些數(shù)據(jù)對(duì)象既可以放在內(nèi)存，也可以放在磁盤，所以spark同樣可以完成數(shù)據(jù)的安全恢復(fù)。

網(wǎng)站建設(shè)哪家好，找成都創(chuàng)新互聯(lián)公司！專注于網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、小程序開發(fā)、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項(xiàng)目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了新沂免費(fèi)建站歡迎大家使用！

本文標(biāo)題：hadoop和spark的區(qū)別介紹
URL標(biāo)題：http://muchs.cn/article44/pdpihe.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站收錄、網(wǎng)站策劃、軟件開發(fā)、建站公司、云服務(wù)器、全網(wǎng)營(yíng)銷推廣

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容