基于spark排序的一種更廉價(jià)的實(shí)現(xiàn)方案-附基于spark的性能測(cè)試-創(chuàng)新互聯(lián)

溫州ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場(chǎng)景,ssl證書未來市場(chǎng)廣闊!成為創(chuàng)新互聯(lián)公司的ssl證書銷售渠道,可以享受市場(chǎng)價(jià)格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:18980820575(備注:SSL證書合作)期待與您的合作!

排序可以說是很多日志系統(tǒng)的硬指標(biāo)(如按照時(shí)間逆序排序),如果一個(gè)大數(shù)據(jù)系統(tǒng)不能進(jìn)行排序,基本上是這個(gè)系統(tǒng)屬于不可用狀態(tài),排序算得上是大數(shù)據(jù)系統(tǒng)的一個(gè)“剛需”,無論大數(shù)據(jù)采用的是hadoop,還是spark,還是impala,hive,總之排序是必不可少的,排序的性能測(cè)試也是必不可少的。

有著計(jì)算奧運(yùn)會(huì)之稱的Sort Benchmark全球排序每年都會(huì)舉行一次,每年巨頭都會(huì)在排序上進(jìn)行巨大的投入,可見排序速度的高低有多么重要!但是對(duì)于大多數(shù)企業(yè)來說,動(dòng)輒上億的硬件投入,實(shí)在劃不來、甚至遠(yuǎn)遠(yuǎn)超出了企業(yè)的項(xiàng)目預(yù)算。相比大數(shù)據(jù)領(lǐng)域的暴力排序有沒有一種更廉價(jià)的實(shí)現(xiàn)方式?

 在這里,我們?yōu)榇蠹医榻B一種新的廉價(jià)排序方法,我們稱為blockSort。

500G的數(shù)據(jù)300億條數(shù)據(jù),只使用4臺(tái) 16核,32G內(nèi)存,千兆網(wǎng)卡的虛擬機(jī)即可實(shí)現(xiàn) 2~15秒的 排序 (可以全表排序,也可以與任意篩選條件篩選后排序)。
一、基本的思想是這樣的,如下圖所示:

1.將數(shù)據(jù)按照大小預(yù)先劃分好,如劃分成 大、中、小三個(gè)塊(block)。

2.如果想找大的數(shù)據(jù),那么只需要在大的那個(gè)塊里去找就可以了。

3.這個(gè)快還是有層級(jí)結(jié)構(gòu)的,如果每個(gè)塊內(nèi)的數(shù)據(jù)量很多,可以到下面的子快內(nèi)進(jìn)行繼續(xù)查找,可以分多個(gè)層進(jìn)行排序。

4.采用這種方法,一個(gè)億萬億級(jí)別的數(shù)據(jù)(如long類型),最壞最壞的極端情況也就進(jìn)行2048次文件seek就可以篩選到結(jié)果。

基于spark排序的一種更廉價(jià)的實(shí)現(xiàn)方案-附基于spark的性能測(cè)試

怎么樣,原理是不是非常簡(jiǎn)單,這樣數(shù)據(jù)量即使特別多,那么排序與查找的次數(shù)是固定的。

二、這個(gè)是我們之前基于spark做的性能測(cè)試,供大家參考

在排序上,YDB具有絕對(duì)優(yōu)勢(shì),無論是全表,還是基于任意條件組合過濾,基本秒殺Spark任何格式。

測(cè)試結(jié)果(時(shí)間單位為秒)

基于spark排序的一種更廉價(jià)的實(shí)現(xiàn)方案-附基于spark的性能測(cè)試

測(cè)試過程視頻地址

https://v.qq.com/x/page/q0371wjj8fb.html

https://v.qq.com/x/page/n0371l0ytji.html

感興趣的讀者也可以閱讀YDB編程指南 http://url.cn/42R4CG8 。也可以參考該書自己安裝延云YDB進(jìn)行測(cè)試。
三、當(dāng)然除了排序上,我們的其他性能也是遠(yuǎn)遠(yuǎn)高于spark,這塊大家也可以了解一下

1、與Spark txt在檢索上的性能對(duì)比測(cè)試。

注釋:備忘。下圖的這塊,其實(shí)沒什么特別的,只不過由于YDB本身索引的特性,不想spark那樣暴力,才會(huì)導(dǎo)致在掃描上的性能遠(yuǎn)高于spark,性能高百倍不足為奇。

下圖為ydb相對(duì)于spark txt提升的倍數(shù)

基于spark排序的一種更廉價(jià)的實(shí)現(xiàn)方案-附基于spark的性能測(cè)試

2、這些是與 Parquet 格式對(duì)比(單位為秒)
基于spark排序的一種更廉價(jià)的實(shí)現(xiàn)方案-附基于spark的性能測(cè)試
基于spark排序的一種更廉價(jià)的實(shí)現(xiàn)方案-附基于spark的性能測(cè)試
基于spark排序的一種更廉價(jià)的實(shí)現(xiàn)方案-附基于spark的性能測(cè)試
基于spark排序的一種更廉價(jià)的實(shí)現(xiàn)方案-附基于spark的性能測(cè)試
基于spark排序的一種更廉價(jià)的實(shí)現(xiàn)方案-附基于spark的性能測(cè)試
基于spark排序的一種更廉價(jià)的實(shí)現(xiàn)方案-附基于spark的性能測(cè)試
基于spark排序的一種更廉價(jià)的實(shí)現(xiàn)方案-附基于spark的性能測(cè)試

3、與ORACLE性能對(duì)比

跟傳統(tǒng)數(shù)據(jù)庫的對(duì)比,已經(jīng)沒啥意義,Oracle不適合大數(shù)據(jù),任意一個(gè)大數(shù)據(jù)工具都遠(yuǎn)超oracle 性能。

 基于spark排序的一種更廉價(jià)的實(shí)現(xiàn)方案-附基于spark的性能測(cè)試

4.稽查布控場(chǎng)景性能測(cè)試

基于spark排序的一種更廉價(jià)的實(shí)現(xiàn)方案-附基于spark的性能測(cè)試

四、YDB是怎么樣讓spark加速的?

     基于Hadoop分布式架構(gòu)下的實(shí)時(shí)的、多維的、交互式的查詢、統(tǒng)計(jì)、分析引擎,具有萬億數(shù)據(jù)規(guī)模下的秒級(jí)性能表現(xiàn),并具備企業(yè)級(jí)的穩(wěn)定可靠表現(xiàn)。

      YDB是一個(gè)細(xì)粒度的索引,精確粒度的索引。數(shù)據(jù)即時(shí)導(dǎo)入,索引即時(shí)生成,通過索引高效定位到相關(guān)數(shù)據(jù)。YDB與Spark深度集成,Spark對(duì)YDB檢索結(jié)果集直接分析計(jì)算,同樣場(chǎng)景讓Spark性能加快百倍。

基于spark排序的一種更廉價(jià)的實(shí)現(xiàn)方案-附基于spark的性能測(cè)試

五、哪些用戶適合使用YDB?

1.傳統(tǒng)關(guān)系型數(shù)據(jù),已經(jīng)無法容納更多的數(shù)據(jù),查詢效率嚴(yán)重受到影響的用戶。

2.目前在使用SOLR、ES做全文檢索,覺得solr與ES提供的分析功能太少,無法完成復(fù)雜的業(yè)務(wù)邏輯,或者數(shù)據(jù)量變多后SOLR與ES變得不穩(wěn)定,在掉片與均衡中不斷惡性循環(huán),不能自動(dòng)恢復(fù)服務(wù),運(yùn)維人員需經(jīng)常半夜起來重啟集群的情況。

3.基于對(duì)海量數(shù)據(jù)的分析,但是苦于現(xiàn)有的離線計(jì)算平臺(tái)的速度和響應(yīng)時(shí)間無滿足業(yè)務(wù)要求的用戶。

4.需要對(duì)用戶畫像行為類數(shù)據(jù)做多維定向分析的用戶。

5.需要對(duì)大量的UGC(User Generate Content)數(shù)據(jù)進(jìn)行檢索的用戶。

6.當(dāng)你需要在大數(shù)據(jù)集上面進(jìn)行快速的,交互式的查詢時(shí)。

7.當(dāng)你需要進(jìn)行數(shù)據(jù)分析,而不只是簡(jiǎn)單的鍵值對(duì)存儲(chǔ)時(shí)。

8.當(dāng)你想要分析實(shí)時(shí)產(chǎn)生的數(shù)據(jù)時(shí)。

視頻地址 (看不清的同學(xué)可以進(jìn)入騰訊視頻 高清播放)

https://v.qq.com/x/page/q0371wjj8fb.html

https://v.qq.com/x/page/n0371l0ytji.html

感興趣的讀者也可以閱讀YDB編程指南 http://url.cn/42R4CG8 。也可以參考該書自己安裝延云YDB進(jìn)行測(cè)試。

Tags: spark, hadoop, hive, lucene, 排序, 大數(shù)據(jù)

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

本文名稱:基于spark排序的一種更廉價(jià)的實(shí)現(xiàn)方案-附基于spark的性能測(cè)試-創(chuàng)新互聯(lián)
地址分享:http://muchs.cn/article24/ddosce.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供企業(yè)建站、外貿(mào)建站、網(wǎng)站導(dǎo)航、響應(yīng)式網(wǎng)站、移動(dòng)網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站建設(shè)網(wǎng)站維護(hù)公司