Sparkshell詞頻統(tǒng)計和統(tǒng)計PV的心得是什么

這期內(nèi)容當中小編將會給大家?guī)碛嘘P(guān)Spark shell 詞頻統(tǒng)計和統(tǒng)計PV的心得是什么，文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述，閱讀完這篇文章希望大家可以有所收獲。

為那坡等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計制作服務(wù)，及那坡網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為成都做網(wǎng)站、網(wǎng)站制作、那坡網(wǎng)站設(shè)計，以傳統(tǒng)方式定制建設(shè)網(wǎng)站，并提供域名空間備案等一條龍服務(wù)，秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達到每一位用戶的要求，就會得到認可，從而選擇與我們長期合作。這樣，我們也可以走得更遠！

所有過程按本人實驗并以本人能夠接受的方式理解的。

樣本數(shù)據(jù)

[hadoop@h301 ~]$ cat hh.txt

hello,world

hello,hadoop

hello,oracle

hadoop,oracle

hello,world

hello,hadoop

hello,oracle

hadoop,oracle

詞頻統(tǒng)計，及其按單詞數(shù)量倒序排序過程及其詳解

1.將文件加載成RDD

Scala> var file=sc.textFile(“hdfs://h301:9000/hh.txt”)

2.將每行按逗號拆分，結(jié)果裝載到一個數(shù)組中，每次提取一個單詞， _代表每次輸入內(nèi)容的占位符

Scala> val h2=file.flatMap(_.split(“,”))

3. 將數(shù)組中的每個元素裝載到map方法中執(zhí)行統(tǒng)一的處理任務(wù),將輸入的每個單詞返回成k,v 鍵值對,reduceByKey()方法只對value只運行括號內(nèi)的方法進行迭代計算_+_ 代表累加，返回的是k和進行過迭代計算的v 鍵值對

Scala> val h3=h2.map(x=>(x,1)).reduceByKey(_+_)

4. 再用第二個map接收上一步的k,v鍵值對進行交換位置輸出例如：

輸入的是（“hello”,5）變成（5,”hello”）

Scala> val h4=h3.map(_.2,_.1)

5. 將結(jié)果按key值排序

Scala> val h5=h5.sortByKey(false) false=倒序 true=升序

6. 在使用map函數(shù)將拍好序的鍵值對進行交換例如：

(5,”hello”) (4,”hadoop”) 變成(“hello”,5)(“hadoop”,4)

Scala> val h6=h5.map(_.2,_.1)

7. 到此已經(jīng)完成了詞頻統(tǒng)計并按照單詞數(shù)量的降序進行了排列已經(jīng)完成下一步可以將結(jié)果輸出到文件夾中，注意是一個目錄

Scala> h6.saveAsTextFile("hdfs://h201:9000/output1")

上述所有操作拆分為了方便理解，可以將所有操作合成一條代碼：如下

Scala > val wc = file.flatMap(_.split(",")).map(x=>(x,1)).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1)).saveAsTextFile(“hdfs://h301:9000/output1”)

flatMap() 與 map() 的區(qū)別

flatMap() 與 map() 都是對輸入的每行內(nèi)容做同樣的操作但是產(chǎn)生的結(jié)果不相同；

例如樣本：

hello,world

hello,hadoop

hello,oracle

將文件導(dǎo)入成RDD =》var file=sc.textFile(“hdfs://xxx:9000/xx.txt”)

同樣是用split方法按逗號分隔

Var fm=file.flatMap(_.split(“,”)) 每行按逗號分隔后產(chǎn)生的結(jié)果解將每個單詞放在一個集合中，下面如果使用fm中的內(nèi)容是每次只會導(dǎo)入一個單詞：

用java表示就是{‘hello’,’world’,’hello’,’hadoop’,’hello’,’oracle’} 相當于一維數(shù)組

Var m=file.map(_.split(“,”)) 每行按逗號分隔后產(chǎn)生的結(jié)果是將每行的變成一個字符串數(shù)組，再放到一個大的結(jié)果集中,下面如果使用m中的內(nèi)容每次導(dǎo)入一個數(shù)組：

用java表示就是{{‘hello’,’world’},{‘hello’,’hadoop’},{‘hello’,’oracle’}} 相當于二維數(shù)組

這在使用Apache日志統(tǒng)計PV時很有用例如日志格式如下：

123.23.4.5 - - xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

23.12.4.5 - - xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

我們只需要取出按空格分隔的第一個列即可這是使用flatMap就不合適了我們可以用map

Salca > var file=sc.textFile(“hdfs://h301:9000/access.log”)

Salca> var h2=file.map(_.split(“ ”,2)) #按空格分隔最多兩列

Salca> var h3=h2.map(x=>(x(0),1)) #輸入的數(shù)組去第0列，即可取出IP

Salca> var h4=h3.reduceByKey(_+_) #統(tǒng)計每個鏈接的登錄次數(shù)

下面就是排序和保存在這里就不在重復(fù)了。

上述就是小編為大家分享的Spark shell 詞頻統(tǒng)計和統(tǒng)計PV的心得是什么了，如果剛好有類似的疑惑，不妨參照上述分析進行理解。如果想知道更多相關(guān)知識，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

當前題目：Sparkshell詞頻統(tǒng)計和統(tǒng)計PV的心得是什么
分享鏈接：http://muchs.cn/article38/iejssp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供App設(shè)計、做網(wǎng)站、面包屑導(dǎo)航、網(wǎng)站排名、定制網(wǎng)站、網(wǎng)站設(shè)計

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容