tungsten-sort有哪些優(yōu)點

這篇文章主要介紹“tungsten-sort有哪些優(yōu)點”,在日常操作中,相信很多人在tungsten-sort有哪些優(yōu)點問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”tungsten-sort有哪些優(yōu)點”的疑惑有所幫助!接下來,請跟著小編一起來學(xué)習(xí)吧!

創(chuàng)新互聯(lián)是一家專業(yè)提供琿春企業(yè)網(wǎng)站建設(shè),專注與做網(wǎng)站、網(wǎng)站設(shè)計、HTML5、小程序制作等業(yè)務(wù)。10年已為琿春眾多企業(yè)、政府機構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站建設(shè)公司優(yōu)惠進行中。

spark實現(xiàn)了多種shuffle方法,通過 spark.shuffle.manager來確定。暫時總共有三種:hash shuffle、sort shuffle和tungsten-sort shuffle,從1.2.0開始默認為sort shuffle。

spark在1.4以后可以通過(spark.shuffle.manager = tungsten-sort)開啟Tungsten-sort shuffle。如果Tungsten-sort 發(fā)現(xiàn)自己無法處理,則會自動使用 Sort Based Shuffle進行處理。Tungsten-sort優(yōu)化點主要有:

  • 直接在serialized binary data上操作,不需要反序列化,使用unsafe內(nèi)存copy函數(shù)直接copy數(shù)據(jù)。

  • 提供cache-efficient sorter ShuffleExternalSorter 排序壓縮記錄指針和partition ids,使用一個8bytes的指針,把排序轉(zhuǎn)化成了一個指針數(shù)組的排序。

  • spilling的時候不需要反序列化和序列化

  • spill的merge過程也無需反序列化即可完成,但需要shuffle.unsafe.fastMergeEnabled的支持

當(dāng)且僅當(dāng)下面條件都滿足時,才會使用新的Shuffle方式:

  • Shuffle dependency 不能帶有aggregation 或者輸出需要排序

  • Shuffle 的序列化器需要是 KryoSerializer 或者 Spark SQL's 自定義的一些序列化方式.* > Shuffle 文件的數(shù)量不能大于 16777216

  • 序列化時,單條記錄不能大于 128 MB

tungsten-sort有哪些優(yōu)點

##優(yōu)點 很多性能的優(yōu)化

##缺點

  1. 不可以在mapper端排序

  2. 不穩(wěn)定

  3. 沒有提供off-heap排序緩存

到此,關(guān)于“tungsten-sort有哪些優(yōu)點”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識,請繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>

本文題目:tungsten-sort有哪些優(yōu)點
文章轉(zhuǎn)載:http://muchs.cn/article10/ihcedo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站收錄、網(wǎng)站導(dǎo)航關(guān)鍵詞優(yōu)化、網(wǎng)站設(shè)計公司服務(wù)器托管、定制網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站建設(shè)