MapReduce如何實現(xiàn)WordCount及其優(yōu)化

這期內(nèi)容當中小編將會給大家?guī)碛嘘P(guān)MapReduce如何實現(xiàn)WordCount及其優(yōu)化,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

讓客戶滿意是我們工作的目標,不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術(shù)通過有效、簡單的方式提供給客戶,將通過不懈努力成為客戶在信息化領(lǐng)域值得信任、有價值的長期合作伙伴,公司提供的服務項目有:主機域名、雅安服務器托管、營銷軟件、網(wǎng)站建設、太倉網(wǎng)站維護、網(wǎng)站推廣。

WordCount: 單詞計數(shù), 統(tǒng)計文本文件中每一個單詞出現(xiàn)的次數(shù)

定義Mapper類, 該類繼承org.apache.hadoop.mapreduce.Mapper

并重寫map()方法

public static class TokenizerMapper extends
			Mapper<LongWritable, Text, Text, IntWritable> {
	        // 定義一個靜態(tài)成員變量, 并且是不可變的, 避免每一次調(diào)用map()方法時, 創(chuàng)建重復對象
		private final static IntWritable one = new IntWritable(1);
		// 定義一個成員變量, 可變, 每一次調(diào)用map()方法時, 只需要調(diào)用Text.set()方法賦新值
		private Text word = new Text();

		public void map(LongWritable key, Text value, Context context)
				throws IOException, InterruptedException {
			String[] words = value.toString().split(" ");
			for (String item : words) {
				word.set(item);
				context.write(word, one);
			}
		}
	}

定義Reducer類, 該類繼承org.apache.hadoop.mapreduce.Reducer

并重寫reduce()方法

public static class IntSumReducer extends
			Reducer<Text, IntWritable, Text, IntWritable> {
		// 定義一個成員變量, 可變, 每一次調(diào)用reduce()方法時, 只需要調(diào)用IntWritable.set()方法賦新值
		private IntWritable result = new IntWritable();

		public void reduce(Text key, Iterable<IntWritable> values,
				Context context) throws IOException, InterruptedException {
			int sum = 0;
			for (IntWritable val : values) {
				sum += val.get();
			}
			result.set(sum);
			context.write(key, result);
		}
	}

測試WordCount

public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);
		job.setJarByClass(WordCount.class); // 設置job的主類
		job.setMapperClass(TokenizerMapper.class); // 設置Mapper類
		// 利用combiner來減少通過shuffle傳輸?shù)臄?shù)據(jù)量
		job.setCombinerClass(IntSumReducer.class); // 設置Combiner類
		job.setReducerClass(IntSumReducer.class); // 設置Reducer類
		job.setMapOutputKeyClass(Text.class); // 設置map階段輸出Key的類型
		job.setMapOutputValueClass(IntWritable.class); // 設置map階段輸出Value的類型
		job.setOutputKeyClass(Text.class); // 設置reduce階段輸出Key的類型
		job.setOutputValueClass(IntWritable.class); // 設置reduce階段輸出Value的類型
		// 設置job輸入路徑(從main方法參數(shù)args中獲取)
		FileInputFormat.addInputPath(job, new Path(args[0]));
		// 設置job輸出路徑(從main方法參數(shù)args中獲取)
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		job.waitForCompletion(true); // 提交job
	}

輸入: 

words:

hello tom
hello jerry
hello kitty
hello world
hello tom

輸出:

hello	5
jerry	1
kitty	1
tom	2
world	1

減少對象的創(chuàng)建, 更少的GC, 肯定會帶來更快的速度

利用combiner來減少通過shuffle傳輸?shù)臄?shù)據(jù)量, 這是MapReduce作業(yè)調(diào)優(yōu)的關(guān)鍵點之一

上述就是小編為大家分享的MapReduce如何實現(xiàn)WordCount及其優(yōu)化了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關(guān)知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

分享標題:MapReduce如何實現(xiàn)WordCount及其優(yōu)化
文章網(wǎng)址:http://muchs.cn/article8/gedsip.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供Google、建站公司定制開發(fā)、網(wǎng)站設計網(wǎng)頁設計公司、云服務器

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

小程序開發(fā)