spark性能優(yōu)化之使用高性能序列化類庫-創(chuàng)新互聯(lián)

如果使用序列化技術，在執(zhí)行序列化操作的時候很慢或者是序列化之后的數(shù)據(jù)量還是很大，那么會讓分布式應用程序性能下降很多，spark自身就會在一些地方對數(shù)據(jù)進行序列化，比如shuffle寫磁盤，還有就是如果我們算子函數(shù)使用了外部數(shù)據(jù)，（比如Java內置類型，或者自定義類型）那么也需要讓其可序列化。

公司專注于為企業(yè)提供成都做網(wǎng)站、網(wǎng)站設計、微信公眾號開發(fā)、電子商務商城網(wǎng)站建設，微信小程序定制開發(fā)，軟件按需開發(fā)等一站式互聯(lián)網(wǎng)企業(yè)服務。憑借多年豐富的經(jīng)驗，我們會仔細了解各客戶的需求而做出多方面的分析、設計、整合，為客戶設計出具風格及創(chuàng)意性的商業(yè)解決方案，創(chuàng)新互聯(lián)更提供一系列網(wǎng)站制作和網(wǎng)站推廣的服務。

默認，spark使用了Java自身提供的序列化機制，基于objectoutputStream和objectinputstream，因為這種方式是Java原生提供的，很方便使用。但是Java序列化機制性能并不高，速度比較慢，序列化后的數(shù)據(jù)還是比較大，只要你的類實現(xiàn)了Serializable接口，那么都是可以序列化的。

spark支持使用Kryo類型來進行序列化，比Java序列化機制更快，而且序列化后的數(shù)據(jù)量更小。Kryo序列化機制之所以不是默認序列化機制的原因是，有些類型雖然實現(xiàn)了Seriralizable接口，但是它也不一定能夠進行序列化；此外，如果你要得到最佳的性能，Kryo還要求你在Spark應用程序中，對所有你需要序列化的類型都進行注冊。

如果要使用Kryo序列化機制，首先要用SparkConf設置一個參數(shù)，使用new SparkConf().set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")即可，即將Spark的序列化器設置為KryoSerializer。這樣，Spark在內部的一些操作，比如Shuffle，進行序列化時，就會使用Kryo類庫進行高性能、快速、更低內存占用量的序列化了。

使用Kryo時，它要求是需要序列化的類，是要預先進行注冊的，以獲得最佳性能——如果不注冊的話，那么Kryo必須時刻保存類型的全限定名，反而占用不少內存。Spark默認是對Scala中常用的類型自動注冊了Kryo的，都在AllScalaRegistry類中。

但是，比如自己的算子中，使用了外部的自定義類型的對象，那么還是需要將其進行注冊。

（實際上，下面的寫法是錯誤的，因為counter不是共享的，所以累加的功能是無法實現(xiàn)的）

val counter = new Counter();

val numbers = sc.parallelize(Array(1, 2, 3, 4, 5))

numbers.foreach(num => counter.add(num));

如果要注冊自定義的類型，那么就使用如下的代碼，即可：

Scala版本：

val conf = new SparkConf().setMaster(...).setAppName(...)

conf.registerKryoClasses(Array(classOf[Counter] ))

val sc = new SparkContext(conf)

Java版本：

SparkConf conf = new SparkConf().setMaster(...).setAppName(...)

conf.registerKryoClasses(Counter.class)

JavaSparkContext sc = new JavaSparkContext(conf)

優(yōu)化Kryo類庫的使用

1、優(yōu)化緩存大小

如果注冊的要序列化的自定義的類型，本身特別大，比如包含了超過100個field。那么就會導致要序列化的對象過大。此時就需要對Kryo本身進行優(yōu)化。因為Kryo內部的緩存可能不夠存放那么大的class對象。此時就需要調用SparkConf.set()方法，設置spark.kryoserializer.buffer.mb參數(shù)的值，將其調大。

默認情況下它的值是2，就是說大能緩存2M的對象，然后進行序列化?？梢栽诒匾獣r將其調大。比如設置為10。

2、預先注冊自定義類型

雖然不注冊自定義類型，Kryo類庫也能正常工作，但是那樣的話，對于它要序列化的每個對象，都會保存一份它的全限定類名。此時反而會耗費大量內存。因此通常都建議預先注冊號要序列化的自定義的類。

在什么場景下使用Kryo序列化類庫

首先，這里討論的都是Spark的一些普通的場景，一些特殊的場景，比如RDD的持久化

那么，這里針對的Kryo序列化類庫的使用場景，就是算子函數(shù)使用到了外部的大數(shù)據(jù)的情況。比如說吧，我們在外部定義了一個封裝了應用所有配置的對象，比如自定義了一個MyConfiguration對象，里面包含了100m的數(shù)據(jù)。然后，在算子函數(shù)里面，使用到了這個外部的大對象。

此時呢，如果默認情況下，讓Spark用java序列化機制來序列化這種外部的大對象，那么就會導致，序列化速度緩慢，并且序列化以后的數(shù)據(jù)還是比較大，比較占用內存空間。

因此，在這種情況下，比較適合，切換到Kryo序列化類庫，來對外部的大對象進行序列化操作。一是，序列化速度會變快；二是，會減少序列化后的數(shù)據(jù)占用的內存空間。

另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn，海內外云服務器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應用場景需求。

當前文章：spark性能優(yōu)化之使用高性能序列化類庫-創(chuàng)新互聯(lián)
標題網(wǎng)址：http://www.muchs.cn/article44/djjpee.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供服務器托管、面包屑導航、網(wǎng)站內鏈、云服務器、品牌網(wǎng)站建設、ChatGPT

聲明：本網(wǎng)站發(fā)布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經(jīng)允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內容