SparkCheckPoint徹底解密(41)-創(chuàng)新互聯(lián)

一、Checkpoint到底是什么?

創(chuàng)新互聯(lián)專業(yè)為企業(yè)提供習(xí)水網(wǎng)站建設(shè)、習(xí)水做網(wǎng)站、習(xí)水網(wǎng)站設(shè)計(jì)、習(xí)水網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計(jì)與制作、習(xí)水企業(yè)網(wǎng)站模板建站服務(wù),10年習(xí)水做網(wǎng)站經(jīng)驗(yàn),不只是建網(wǎng)站,更提供有價(jià)值的思路和整體網(wǎng)絡(luò)服務(wù)。

1, Spark在生產(chǎn)環(huán)境下經(jīng)常會面臨Tranformations的RDD非常多(例如一個(gè)Job中包含1萬個(gè)RDD)或者具體Tranformation產(chǎn)生的RDD本身計(jì)算特別復(fù)雜和耗時(shí)(例如計(jì)算時(shí)常超過1個(gè)小時(shí)),此時(shí)我們必須考慮對計(jì)算結(jié)果數(shù)據(jù)的持久化;

2, Spark是擅長多步驟迭代,同時(shí)擅長基于Job的復(fù)用,這個(gè)時(shí)候如果能夠?qū)υ?jīng)計(jì)算的過程產(chǎn)生的數(shù)據(jù)進(jìn)行復(fù)用,就可以極大的提升效率;

3, 如果采用persist把數(shù)據(jù)放在內(nèi)存中的話,雖然是最快速的但是也是最不可靠的;如果放在磁盤上也不是完全可靠的!例如磁盤會損壞。

4, Checkpoint的產(chǎn)生就是為了相對而言更加可靠的持久化數(shù)據(jù),在Checkpoint可以指定把數(shù)據(jù)放在本地并且是多副本的方式,但是在正常的生產(chǎn)環(huán)境下是放在HDFS,這就天然的借助了HDFS高容錯(cuò)的高可靠的特征來完成了大化的可靠的持久化數(shù)據(jù)的方式;

5, Checkpoint是為了大程度保證絕度可靠的復(fù)用RDD計(jì)算數(shù)據(jù)的Spark的高級功能,通過Checkpoint我們通過把數(shù)據(jù)持久化的HDFS來保證數(shù)據(jù)大程度的安全性;

6, Checkpoint就是針對整個(gè)RDD計(jì)算鏈條中特別需要數(shù)據(jù)持久化的環(huán)節(jié)(后面會反復(fù)使用當(dāng)前環(huán)節(jié)的RDD)開始基于HDFS等的數(shù)據(jù)持久化復(fù)用策略,通過對RDD啟動checkpoint機(jī)制來實(shí)現(xiàn)容錯(cuò)和高可用;

二、Checkpoint原理機(jī)制

1, 通過調(diào)用SparkContext.setCheckpointDir方法來指定進(jìn)行Checkpoint操作的RDD把數(shù)據(jù)放在哪里,在生產(chǎn)集群中是放在HDFS上的,同時(shí)為了提高效率在進(jìn)行checkpoint的使用可以指定很多目錄

2, 在進(jìn)行RDD的checkpoint的時(shí)候其所依賴的所有的RDD都會從計(jì)算鏈條中清空掉;

3, 作為最佳實(shí)踐,一般在進(jìn)行checkpoint方法調(diào)用前通過都要進(jìn)行persist來把當(dāng)前RDD的數(shù)據(jù)持久化到內(nèi)存或者磁盤上,這是因?yàn)閏heckpoint是Lazy級別,必須有Job的執(zhí)行且在Job執(zhí)行完成后才會從后往前回溯哪個(gè)RDD進(jìn)行了Checkpoint標(biāo)記,然后對該標(biāo)記了要進(jìn)行Checkpoint的RDD新啟動一個(gè)Job執(zhí)行具體的Checkpoint的過程;

4, Checkpoint改變了RDD的Lineage;

5, 當(dāng)我們調(diào)用了checkpoint方法要對RDD進(jìn)行Checkpoint操作的話,此時(shí)框架會自動生成RDDCheckpointData,當(dāng)RDD上運(yùn)行過一個(gè)Job后就會立即觸發(fā)RDDCheckpointData中的checkpoint方法,在其內(nèi)部會調(diào)用doCheckpoint,實(shí)際上在生產(chǎn)環(huán)境下會調(diào)用ReliableRDDCheckpointData的doCheckpoint,在生產(chǎn)環(huán)境下會導(dǎo)致ReliableCheckpointRDD的writeRDDToCheckpointDirectory的調(diào)用,而在writeRDDToCheckpointDirectory方法內(nèi)部會觸發(fā)runJob來執(zhí)行把當(dāng)前的RDD中的數(shù)據(jù)寫到Checkpoint的目錄中,同時(shí)會產(chǎn)生ReliableCheckpointRDD實(shí)例;

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

網(wǎng)頁題目:SparkCheckPoint徹底解密(41)-創(chuàng)新互聯(lián)
本文鏈接:http://muchs.cn/article0/dshcoo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供域名注冊、虛擬主機(jī)、網(wǎng)站改版、企業(yè)網(wǎng)站制作、網(wǎng)站設(shè)計(jì)公司、小程序開發(fā)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

微信小程序開發(fā)