學習Hadoop筆記(一)

   從事軟件開發(fā)將近四年,一直熱衷于各種技術語言,但是感覺自己始終都不知道自己到底喜歡從事哪個方面的開發(fā),畢業(yè)的前兩年一直在大連做對日軟件外包,做了兩年后覺得真的沒有什么意思,軟件的設計都不是自己做的,只是需要按照需求進行程序的書寫,所以和幾個同事一直離職后來了北京,其實來到北京想的和現(xiàn)實還是不一樣,最后我還是干了類似外包的項目,寫這篇日記我心里一直很不確定自己喜歡什么樣的技術喜歡什么樣的語言,所以我這回準備開始寫blog來記錄自己的學習的點點滴滴,我心里優(yōu)先喜歡的就是手機開發(fā),好在現(xiàn)在的工作給我很多空閑的時間,讓我有很大的空間學習,所以再這里給自己一個鼓勵爭取一周至少一篇關于自己學習的blog。我學習的方向現(xiàn)在分兩個方向,最后來確定自己到底喜歡哪個,再為之努力奮斗。一個就是手機方向,一個就是Hadoop方向。我覺得未來中國的軟件市場是非常大的,手機互聯(lián)網(wǎng)這不用說現(xiàn)在還是很熱,將來可能會慢慢趨于穩(wěn)定,但總之這10幾年應該還是很穩(wěn)定的,我對未來的看法就是未來數(shù)據(jù)是王道,誰掌握了越多的數(shù)據(jù)誰就能掌握主動權,但掌握數(shù)據(jù)多沒有用,得要合理分析所有的數(shù)據(jù),才能把數(shù)據(jù)轉化為相應的價值。所以另一個方向就是研究大數(shù)據(jù),大數(shù)據(jù)的處理。今天這篇blog就來說說Hadoop的大數(shù)據(jù)處理心得筆記。我現(xiàn)在看的這本就是《Hadoop權威指南第二版中文版》。通過學習來一步一步成長,也算是自己的學習記錄吧。

我們提供的服務有:做網(wǎng)站、網(wǎng)站建設、微信公眾號開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認證、松江ssl等。為近1000家企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務,是有科學管理、有技術的松江網(wǎng)站制作公司

   開始記錄筆記:

  1. Hadoop是apache里的一個開源的項目。核心是谷歌公司的對于大數(shù)據(jù)處理的框架,基于MapReduce軟件設計模型。是大數(shù)據(jù)分布式系統(tǒng)的一個開源軟件項目,對于處理大數(shù)據(jù)分析現(xiàn)在是比較主流的軟件框架。

  2. hadoop處理方式:數(shù)據(jù)輸入->MapReduce的程序和配置->輸出。

    Map任務:數(shù)據(jù)的key,value生成。輸出到本地磁盤,因為是中間結果,如果放在HDFS(分布式文件系統(tǒng))未免小題大做。

    Reduce任務:數(shù)據(jù)的解析,輸出自己預期的結果。輸出到HDFS,以實現(xiàn)可靠數(shù)據(jù)。

  3. 我的理解Reduce相當一個統(tǒng)領全局的人,它需要某種規(guī)則的數(shù)據(jù)就需要map來給它提供,map里可以通過分區(qū)提供給不同的Reduce去處理。當沒有Reduce時,map就直接發(fā)送到HDFS上。

  4. map和Reduce中可以有個合并函數(shù)進行過度,合并函數(shù)在map里運用可以減少對于map輸出的數(shù)據(jù)量。有效減少map和Reduce之間的數(shù)據(jù)傳輸量。但對于合并函數(shù)還是視情況運用。比如求平均值等一些需要全數(shù)據(jù)的時候就不能使用。

文章題目:學習Hadoop筆記(一)
文章網(wǎng)址:http://muchs.cn/article22/geddjc.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供靜態(tài)網(wǎng)站、定制開發(fā)ChatGPT、網(wǎng)站制作、外貿網(wǎng)站建設、小程序開發(fā)

廣告

聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站建設網(wǎng)站維護公司