大數(shù)據(jù)實(shí)踐學(xué)習(xí)總結(jié)(3)--MapReduce-創(chuàng)新互聯(lián)

關(guān)于糾結(jié),曾經(jīng)很糾結(jié)搞大數(shù)據(jù)的人是否要學(xué)習(xí)代碼,更何況自己是售前方向的。理解原理就可以了,后來發(fā)現(xiàn),糾結(jié)的時(shí)間越來越多。就明白了,與其糾結(jié)是否要去搞代碼,不如自己實(shí)際操作一下代碼,找一個(gè)業(yè)務(wù)場(chǎng)景代入之后好好學(xué)習(xí)一下。簡(jiǎn)單來說:與其糾結(jié),不如實(shí)干!

創(chuàng)新互聯(lián)公司為客戶提供專業(yè)的網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)、程序、域名、空間一條龍服務(wù),提供基于WEB的系統(tǒng)開發(fā). 服務(wù)項(xiàng)目涵蓋了網(wǎng)頁設(shè)計(jì)、網(wǎng)站程序開發(fā)、WEB系統(tǒng)開發(fā)、微信二次開發(fā)、成都做手機(jī)網(wǎng)站等網(wǎng)站方面業(yè)務(wù)。

  簡(jiǎn)單來說,MapReduce的學(xué)習(xí)開始感覺到吃力??赡苁歉约褐皼]有代碼基礎(chǔ)有關(guān),雖是學(xué)有三年大數(shù)據(jù)的原理基礎(chǔ),但對(duì)相關(guān)代碼的實(shí)現(xiàn)還是沒有實(shí)際操作過。但敲完這一遍代碼,看到最后的WEB結(jié)果展示。心里還是多少有些欣慰。對(duì)于一些技術(shù),你知道,了解并能夠運(yùn)用到實(shí)際工作過程中是要有一個(gè)階段的。

MAP階段

 實(shí)際上這一個(gè)過程就是要你能夠?qū)⒃次募械?,單詞進(jìn)行一一的統(tǒng)計(jì),這里邊用到python語句,寫起來也很簡(jiǎn)單。就是一個(gè)簡(jiǎn)單的映射關(guān)系,很容易理解。

 實(shí)際上,MAP是一個(gè)分的思想,相當(dāng)于當(dāng)你有大量數(shù)據(jù)的時(shí)候,你需要首先把數(shù)據(jù)分到不同機(jī)器上。而在實(shí)際操作過程上,相當(dāng)于把你的大文件直接放在HDFS的集群上。每一臺(tái)機(jī)器上都進(jìn)行相關(guān)的映射操作。Hadoop上的代碼跟VIM的代碼基本相同,區(qū)別就在于是否前邊要加上hadoop這個(gè)起始語句。這里還涉及到相關(guān)的路徑引導(dǎo),這里主要是在JAVA環(huán)境變量里設(shè)置,當(dāng)你設(shè)置好之后,就可以通過+TAB鍵來完全工作。

Reduce階段

 這個(gè)是一個(gè)合并的過程,相當(dāng)于對(duì)你之前映射后的文件來一個(gè)合并歸約,而我這次的實(shí)踐是wordcount操作,相當(dāng)于是對(duì)所有重復(fù)的單詞來一個(gè)統(tǒng)計(jì)。

 它這個(gè)里邊涉及到的有FIFO,遍歷的算法實(shí)現(xiàn)。相當(dāng)于把你各個(gè)機(jī)器的工作結(jié)果匯總到一臺(tái)主PC上。而這一個(gè)階段的代碼要比MAP階段多。這一塊有數(shù)組的相關(guān)知識(shí),還有累加函數(shù),這一塊是需要有相關(guān)函數(shù)包的理解的。

  在學(xué)習(xí)MAPREDUCE過程中,發(fā)現(xiàn)自己大的問題就是VIM命令的不熟悉,有些內(nèi)容,只有你操作過你才能更深入的理解其實(shí)現(xiàn)原理。已前只是知道其原理,而在這次MAPREDUCE的學(xué)習(xí)實(shí)踐過程中,發(fā)現(xiàn)自己的實(shí)際操作還是有些不理想,自己也對(duì)mapredeuce算是有了一個(gè)了解。周未再換一個(gè)數(shù)據(jù)集,再來把已經(jīng)會(huì)的代碼熟悉一遍。加油!

ulimit -a       #查看所能讀文件的能力#

cd /usr/local/src/               #打開hadoop的相應(yīng)文件夾#

ls

ll                            #ll為查看文件的相關(guān)屬性,ls為查看相關(guān)文件夾下文件#

touch *.*                      #建立某一個(gè)文件#

mkdir python_mr                #建立一個(gè)文件夾#

cd /home/badou/python_mr/      #打開相關(guān)的mapreduce文件夾#

cd mapreduce_wordcount_python/  #進(jìn)入相關(guān)詞頻統(tǒng)計(jì)函數(shù),通過相應(yīng)的共享文件目標(biāo),將源文件拷貝到此目錄下#

rm output  result.data             #刪除之前操作過輸出的文檔#

#本地查看源文件#

cat The_Man_of_Property.txt

 #查看上傳的文件,若文件太長(zhǎng),用ctrl+c可退出查看#

cat The_Man_of_Property.txt|  head -1

 #查看文件中第一個(gè)頭部信息#

cat The_Man_of_Property.txt| head  -2 | tr ' ' '\n'

#將所有的空格都轉(zhuǎn)換成換行符#

cat The_Man_of_Property.txt| head  -2 | tr ' ' '\n' | sort -k1 -nr |

 #排序(k,k1,k1列標(biāo)示,-n -nr按大小順序OR倒序)#

cat The_Man_of_Property.txt| head  -2 | tr ' ' '\n' | sort -k 1 | uniq -c  |head

#把相同的行數(shù)進(jìn)行統(tǒng)計(jì)#

cat The_Man_of_Property.txt| head  -2 | tr ' ' '\n' | sort -k 1 | uniq -c  | awk '{print$2"\t"$1}'  |head

#輸出成Key-Value形式#

cat The_Man_of_Property.txt| head  -2 | tr ' ' '\n' | sort -k 1 | uniq -c  | awk '{print$2"\t"$1}' | sort -k2 -nr | head #將輸出的K-Value形式進(jìn)行排序并做頭部10行顯示#

#上傳到hadoop系統(tǒng)中進(jìn)行處理#

vim ~/.bashrc                #進(jìn)入JAVA的環(huán)境變量設(shè)置#

       export PATH=$PATH大數(shù)據(jù)實(shí)踐學(xué)習(xí)總結(jié)(3)--MapReduceJAVA_HOME/bin:/usr/local/src/hadoop-1.2.1/bin      #修改引用,將匹配擴(kuò)展到hadoop#

sourc ~/.bashrc              #保存退出后,用命令使已配的環(huán)境變量生效#

hadoop fs -ls /             #查看hadoop下文件#

hadoop fs -rmr /The_Man_of_Property.txt   #刪除已上傳好的文檔#

hadoop fs -put The_Man_of_Property.txt /   #上傳相應(yīng)文檔,注意:必須是本目錄下文件#

hadoop fs -cat /The_Man_of_Property.txt | head    #查看hadoop上的文件,但只能看到明文文件#

hadoop fs -text /The_Man_of_Property.txt | head   #查看hadoop上的文件,可以看到密文文件和壓縮文件#

#map.py 代碼#

import sys                                 #定義一個(gè)系統(tǒng)模塊#

for line in sys.stdin:                          #從標(biāo)準(zhǔn)輸入讀取數(shù)據(jù)#

      ss = line.strip().split(' ')                  #對(duì)一行字串進(jìn)行處理,相當(dāng)于用空格分隔每個(gè)分詞,ss是很多單詞#

      for s in ss:                            #對(duì)每一個(gè)單詞進(jìn)行處理#

            if  s.strip() != "":

                 print "%s\t%s" % (s, 1)       #如果每個(gè)單詞不為完,則記這個(gè)單詞為1 #

cat The_Man_of_Property.txt | head | python map.py | head    #測(cè)試上邊的代碼是否成功#

#reduce.py 代碼#

import sys

current_word = None

count_pool = []

sum = 0                                 #初始定義參數(shù)值#

for line in sys.stdin:                        #從標(biāo)準(zhǔn)輸入讀每一行數(shù)值#

     word,  val = line.strip().split('\t')

     if current_word ==None:              #當(dāng)前單詞是否為空做為判斷條件#

           current_word = word

     if current_word != word:

            for count in count_pool:

                  sum += count

            print  "%s\t%s" % (current_word, sum)

            current_word = word

            count_pool = []

            sum = 0

     count_pool.append(int(val))                 #Key追加到相當(dāng)數(shù)組中#

for count in count_pool:

       sum += count                              #對(duì)Value相行重復(fù)次數(shù)求和#

print "%s\t%s" % (current_word, str(sum))               #輸出相應(yīng)的Key-Value值#

cat The_Man_of_Property.txt | python map.py | sort -k1 | python red.py | sort -k2 -nr |head  #驗(yàn)證map.py跟red.py代碼#

#run.sh shell腳本,用來啟動(dòng)map.py與red.py#

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"                                   #設(shè)置目標(biāo)路徑,便于引用#

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

#設(shè)置STREAM_JAR_PATH路徑,便于輸入輸出#

INPUT_FILE_PATH_1="/The_Man_of_Property.txt"

OUTPUT_PATH="/output"

#  $HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH

# Step 1.

$HADOOP_CMD jar $STREAM_JAR_PATH \

                 -input  $INPUT_FILE_PATH_1 \

                 -output  $OUTPUT_PATH \

                 -mapper  "python map.py"  \

                 -reduce   "python red.py"  \

                 -file ./map.py \

                 -filt ./red.py                                #向HADOOP上上傳相關(guān)文件#

 ./run.sh                                             #直接運(yùn)行這個(gè)shell腳本,調(diào)用hadoop運(yùn)行相關(guān)python文件#

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

本文題目:大數(shù)據(jù)實(shí)踐學(xué)習(xí)總結(jié)(3)--MapReduce-創(chuàng)新互聯(lián)
標(biāo)題網(wǎng)址:http://muchs.cn/article0/ijjio.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App設(shè)計(jì)、外貿(mào)建站網(wǎng)站維護(hù)、做網(wǎng)站動(dòng)態(tài)網(wǎng)站、網(wǎng)站導(dǎo)航

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)