ApacheSpark常見的三大誤解分別是什么-創(chuàng)新互聯(lián)

ApacheSpark常見的三大誤解分別是什么，針對(duì)這個(gè)問題，這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答，希望可以幫助更多想解決這個(gè)問題的小伙伴找到更簡(jiǎn)單易行的方法。

創(chuàng)新互聯(lián)建站專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù)，包含不限于成都做網(wǎng)站、成都網(wǎng)站制作、孟村網(wǎng)絡(luò)推廣、微信平臺(tái)小程序開發(fā)、孟村網(wǎng)絡(luò)營銷、孟村企業(yè)策劃、孟村品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運(yùn)營等，從售前售中售后，我們都將竭誠為您服務(wù)，您的肯定，是我們大的嘉獎(jiǎng)；創(chuàng)新互聯(lián)建站為所有大學(xué)生創(chuàng)業(yè)者提供孟村建站搭建服務(wù)，24小時(shí)服務(wù)熱線：13518219792，官方網(wǎng)址：muchs.cn

ApacheSpark常見的三大誤解

誤解一：Spark是一種內(nèi)存技術(shù)

　　大家對(duì)Spark大的誤解就是其是一種內(nèi)存技術(shù)（in-memorytechnology）。其實(shí)不是這樣的！沒有一個(gè)Spark開發(fā)者正式說明這個(gè)，這是對(duì)Spark計(jì)算過程的誤解。

　　我們從頭開始說明。什么樣的技術(shù)才能稱得上是內(nèi)存技術(shù)？在我看來，就是允許你將數(shù)據(jù)持久化（persist）在RAM中并有效處理的技術(shù)。然而Spark并不具備將數(shù)據(jù)數(shù)據(jù)存儲(chǔ)在RAM的選項(xiàng)，雖然我們都知道可以將數(shù)據(jù)存儲(chǔ)在HDFS,Tachyon,HBase,Cassandra等系統(tǒng)中，但是不管是將數(shù)據(jù)存儲(chǔ)在磁盤還是內(nèi)存，都沒有內(nèi)置的持久化代碼（nativepersistencecode）。它所能做的事就是緩存（cache）數(shù)據(jù)，而這個(gè)并不是數(shù)據(jù)持久化（persist）。已經(jīng)緩存的數(shù)據(jù)可以很容易地被刪除，并且在后期需要時(shí)重新計(jì)算。

　　但是即使有這些信息，仍然有些人還是會(huì)認(rèn)為Spark就是一種基于內(nèi)存的技術(shù)，因?yàn)镾park是在內(nèi)存中處理數(shù)據(jù)的。這當(dāng)然是對(duì)的，因?yàn)槲覀儫o法使用其他方式來處理數(shù)據(jù)。操作系統(tǒng)中的API都只能讓你把數(shù)據(jù)從塊設(shè)備加載到內(nèi)存，然后計(jì)算完的結(jié)果再存儲(chǔ)到塊設(shè)備中。我們無法直接在HDD設(shè)備上計(jì)算；所以現(xiàn)代系統(tǒng)中的所有處理基本上都是在內(nèi)存中進(jìn)行的。

　　雖然Spark允許我們使用內(nèi)存緩存以及LRU替換規(guī)則，但是你想想現(xiàn)在的RDBMS系統(tǒng)，比如Oracle和PostgreSQL，你認(rèn)為它們是如何處理數(shù)據(jù)的？它們使用共享內(nèi)存段（sharedmemorysegment）作為tablepages的存儲(chǔ)池，所有的數(shù)據(jù)讀取以及寫入都是通過這個(gè)池的，這個(gè)存儲(chǔ)池同樣支持LRU替換規(guī)則；所有現(xiàn)代的數(shù)據(jù)庫同樣可以通過LRU策略來滿足大多數(shù)需求。但是為什么我們并沒有把Oracle和PostgreSQL稱作是基于內(nèi)存的解決方案呢？你再想想LinuxIO，你知道嗎？所有的IO操作也是會(huì)用到LRU緩存技術(shù)的。

　　你現(xiàn)在還認(rèn)為Spark在內(nèi)存中處理所有的操作嗎？你可能要失望了。比如Spark的核心：shuffle，其就是將數(shù)據(jù)寫入到磁盤的。如果你再SparkSQL中使用到groupby語句，或者你將RDD轉(zhuǎn)換成PairRDD并且在其之上進(jìn)行一些聚合操作，這時(shí)候你強(qiáng)制讓Spark根據(jù)key的哈希值將數(shù)據(jù)分發(fā)到所有的分區(qū)中。shuffle的處理包括兩個(gè)階段：map和reduce。Map操作僅僅根據(jù)key計(jì)算其哈希值，并將數(shù)據(jù)存放到本地文件系統(tǒng)的不同文件中，文件的個(gè)數(shù)通常是reduce端分區(qū)的個(gè)數(shù)；Reduce端會(huì)從Map端拉取數(shù)據(jù)，并將這些數(shù)據(jù)合并到新的分區(qū)中。所有如果你的RDD有M個(gè)分區(qū)，然后你將其轉(zhuǎn)換成N個(gè)分區(qū)的PairRDD，那么在shuffle階段將會(huì)創(chuàng)建M*N個(gè)文件！雖然目前有些優(yōu)化策略可以減少創(chuàng)建文件的個(gè)數(shù)，但這仍然無法改變每次進(jìn)行shuffle操作的時(shí)候你需要將數(shù)據(jù)先寫入到磁盤的事實(shí)！

所以結(jié)論是：Spark并不是基于內(nèi)存的技術(shù)！它其實(shí)是一種可以有效地使用內(nèi)存LRU策略的技術(shù)。

誤解二：Spark要比Hadoop快10x-100x

　　這個(gè)圖片是分別使用Spark和Hadoop運(yùn)行邏輯回歸（LogisticRegression）機(jī)器學(xué)習(xí)算法的運(yùn)行時(shí)間比較，從上圖可以看出Spark的運(yùn)行速度明顯比Hadoop快上百倍！但是實(shí)際上是這樣的嗎？大多數(shù)機(jī)器學(xué)習(xí)算法的核心部分是什么？其實(shí)就是對(duì)同一份數(shù)據(jù)集進(jìn)行相同的迭代計(jì)算，而這個(gè)地方正是Spark的LRU算法所驕傲的地方。當(dāng)你多次掃描相同的數(shù)據(jù)集時(shí)，你只需要在首次訪問時(shí)加載它到內(nèi)存，后面的訪問直接從內(nèi)存中獲取即可。這個(gè)功能非常的棒！但是很遺憾的是，官方在使用Hadoop運(yùn)行邏輯回歸的時(shí)候很大可能沒有使用到HDFS的緩存功能，而是采用極端的情況。如果在Hadoop中運(yùn)行邏輯回歸的時(shí)候采用到HDFS緩存功能，其表現(xiàn)很可能只會(huì)比Spark差3x-4x，而不是上圖所展示的一樣。

　　根據(jù)經(jīng)驗(yàn)，企業(yè)所做出的基準(zhǔn)測(cè)試報(bào)告一般都是不可信的！一般獨(dú)立的第三方基準(zhǔn)測(cè)試報(bào)告是比較可信的，比如：TPC-H。他們的基準(zhǔn)測(cè)試報(bào)告一般會(huì)覆蓋絕大部分場(chǎng)景，以便真實(shí)地展示結(jié)果。

　　一般來說，Spark比MapReduce運(yùn)行速度快的原因主要有以下幾點(diǎn)：

　　task啟動(dòng)時(shí)間比較快，Spark是fork出線程；而MR是啟動(dòng)一個(gè)新的進(jìn)程；

　　更快的shuffles，Spark只有在shuffle的時(shí)候才會(huì)將數(shù)據(jù)放在磁盤，而MR卻不是。

　　更快的工作流：典型的MR工作流是由很多MR作業(yè)組成的，他們之間的數(shù)據(jù)交互需要把數(shù)據(jù)持久化到磁盤才可以；而Spark支持DAG以及pipelining，在沒有遇到shuffle完全可以不把數(shù)據(jù)緩存到磁盤。

　　緩存：雖然目前HDFS也支持緩存，但是一般來說，Spark的緩存功能更加高效，特別是在SparkSQL中，我們可以將數(shù)據(jù)以列式的形式儲(chǔ)存在內(nèi)存中。

　　所有的這些原因才使得Spark相比Hadoop擁有更好的性能表現(xiàn)；在比較短的作業(yè)確實(shí)能快上100倍，但是在真實(shí)的生產(chǎn)環(huán)境下，一般只會(huì)快2.5x~3x！

誤解三：Spark在數(shù)據(jù)處理方面引入了全新的技術(shù)

　　事實(shí)上，Spark并沒有引入任何革命性的新技術(shù)！其擅長(zhǎng)的LRU緩存策略和數(shù)據(jù)的pipelining處理其實(shí)在MPP數(shù)據(jù)庫中早就存在！Spark做出重要的一步是使用開源的方式來實(shí)現(xiàn)它！并且企業(yè)可以免費(fèi)地使用它。大部分企業(yè)勢(shì)必會(huì)選擇開源的Spark技術(shù)，而不是付費(fèi)的MPP技術(shù)

關(guān)于ApacheSpark常見的三大誤解分別是什么問題的解答就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，如果你還有很多疑惑沒有解開，可以關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道了解更多相關(guān)知識(shí)。

網(wǎng)站名稱：ApacheSpark常見的三大誤解分別是什么-創(chuàng)新互聯(lián)
鏈接URL：http://muchs.cn/article2/dejioc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供面包屑導(dǎo)航、網(wǎng)站營銷、做網(wǎng)站、軟件開發(fā)、網(wǎng)站策劃、手機(jī)網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容