Spark數(shù)據(jù)集的過濾方法

這篇文章主要介紹“Spark數(shù)據(jù)集的過濾方法”,在日常操作中,相信很多人在Spark數(shù)據(jù)集的過濾方法問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”Spark數(shù)據(jù)集的過濾方法”的疑惑有所幫助!接下來,請跟著小編一起來學(xué)習(xí)吧!

創(chuàng)新互聯(lián)建站專業(yè)為企業(yè)提供南安網(wǎng)站建設(shè)、南安做網(wǎng)站、南安網(wǎng)站設(shè)計(jì)、南安網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計(jì)與制作、南安企業(yè)網(wǎng)站模板建站服務(wù),10余年南安做網(wǎng)站經(jīng)驗(yàn),不只是建網(wǎng)站,更提供有價(jià)值的思路和整體網(wǎng)絡(luò)服務(wù)。

在實(shí)際工作中,根據(jù)某個(gè)字段,對一個(gè)Spark數(shù)據(jù)集進(jìn)行過濾,是一個(gè)很常見的場景,舉個(gè)例子:

一個(gè)存儲(chǔ)公司員工信息的數(shù)據(jù)集A,有以下三個(gè)字段:

id: Integer
name: String
age: Integer

現(xiàn)在要過濾出某些員工的id,這些id在B集合(B可能是哈希表,也可能是Spark數(shù)據(jù)集)中,過濾邏輯為:

C = A.filter(A.id in B)

有四種方法可以實(shí)現(xiàn),分別為:

  • Filter

  • Map

  • MapPartition

  • Inner Join

下面是詳細(xì)介紹。

Filter

Spark的Filter變換,可以根據(jù)條件表達(dá)式、返回布爾值的過濾函數(shù)、條件字符串,對數(shù)據(jù)集進(jìn)行過濾,使用方法如下:

// 1. 條件表達(dá)式A1 = A.filter(Column condition)// 2. 自定義過濾函數(shù)A1 = A.filter(FilterFunction<T> func)// 3. 條件字符串A1 = A.filter(String condition)

Filter 變換比較簡單,逐條處理記錄不論數(shù)據(jù)集大小,效率都很高,但需要能夠?qū)⒂脕磉^濾的數(shù)據(jù)集B廣播到所有的executor上。

Map

Map變換,對數(shù)據(jù)集中每條記錄調(diào)用一個(gè)函數(shù),返回值可以是null,也可以是相同類型或不同類型的新記錄,使用方法如下:

// encoder參數(shù)用來指定輸出類型A2 = A.map(MapFunction<T,U> func, Encoder<U> encoder)

通過Map變換實(shí)現(xiàn)過濾的話,只需要在Map變換中,將符合條件的記錄原樣返回,不符合條件的記錄返回null即可。

可以看到,Map變換的語義和Filter變換的語義相似,都是逐條處理記錄,但Map需要提供一個(gè)額外的Encoder,故沒有Filter簡單和優(yōu)雅,且因?yàn)檩敵鲆^濾null值,所以效率不如Filter。

MapPartitions

MapPartitions變換,與Map變換類似,但映射函數(shù)不是在每條記錄上調(diào)用,而是在分區(qū)級(jí)別調(diào)用,使用方法如下:

// func的輸入和輸出都是Iterator類型A3 = A.map(MapPartitionsFunction<T,U> func, Encoder<U> encoder)

MapPartitions在分區(qū)級(jí)別進(jìn)行操作,而不是記錄級(jí)別,因此比Filter和Map效率更高。缺點(diǎn)的話,首先和Map一樣,需要提供一個(gè)額外的Encoder,此外,當(dāng)分區(qū)過大,超過executor所能提供的內(nèi)存時(shí),任務(wù)會(huì)失敗,因此可靠性不如Map和Filter。

Inner Join

以員工id相等為Inner Join的條件,然后只要A集合中的字段,同樣可以實(shí)現(xiàn)過濾,使用方法:

// join表達(dá)式可能為 A("id") === B("id")A4 = A.join(Dataset<?> B, Column joinExprs)

Inner Join和Filter一樣,效率和可靠性都有保證,且對B集合的類型和大小都沒有偏好。

到此,關(guān)于“Spark數(shù)據(jù)集的過濾方法”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí),請繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編會(huì)繼續(xù)努力為大家?guī)砀鄬?shí)用的文章!

分享標(biāo)題:Spark數(shù)據(jù)集的過濾方法
文章位置:http://muchs.cn/article34/ijddpe.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供靜態(tài)網(wǎng)站、網(wǎng)站內(nèi)鏈、電子商務(wù)、搜索引擎優(yōu)化、網(wǎng)站策劃、標(biāo)簽優(yōu)化

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

商城網(wǎng)站建設(shè)