From 8bfab609f7c0da39e7a1507bf4888339b3e63a75 Mon Sep 17 00:00:00 2001 From: hxlong <1141741507@qq.com> Date: Wed, 14 Oct 2020 15:49:21 +0800 Subject: [PATCH] update assignment3 --- Assignment3.md | 27 ++++++++++++++++++++++++++- 1 file changed, 26 insertions(+), 1 deletion(-) diff --git a/Assignment3.md b/Assignment3.md index 4c6bf17..bd26e6e 100644 --- a/Assignment3.md +++ b/Assignment3.md @@ -191,7 +191,32 @@ ### 四)MapReduce Job -> MapReduce是一种分布式计算框架 ,以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。(待完成...............) +> MapReduce是一种分布式计算框架 ,以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。在/home/hadoop/hadoop-examples.jar 中有很多简单的MapReduce实例程序。我们可以通过在master节点执行命令 ` hadoop jar /home/hadoop/hadoop-examples.jar` 可以看到可以运行的实例程序。 +![image-20201014152606786](img/assignment3/image-20201014152606786.png) +#### 统计词频 + +- 创建目录,并上传测试数据 + +``` +hadoop fs -mkdir /input +hadoop fs -put /home/hadoop/conf/* /input +``` + +- 执行WordCount任务 + +``` +hadoop jar /home/hadoop/hadoop-examples.jar wordcount /input /output 如果/output目录已存在,请删除该目录或使用其他目录。 +``` + +- 查看wordcount任务的结果 + +``` + hadoop fs -cat /output/part-r-00000 +``` + +`**************作业4:统计/home/hadoop/etc/hadoop目录下所有文件的词频并截图,插入实验报告中***************` + +​ **