diff --git a/Assignment3.md b/Assignment3.md index 4c6bf17..bd26e6e 100644 --- a/Assignment3.md +++ b/Assignment3.md @@ -191,7 +191,32 @@ ### 四)MapReduce Job -> MapReduce是一种分布式计算框架 ,以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。(待完成...............) +> MapReduce是一种分布式计算框架 ,以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。在/home/hadoop/hadoop-examples.jar 中有很多简单的MapReduce实例程序。我们可以通过在master节点执行命令 ` hadoop jar /home/hadoop/hadoop-examples.jar` 可以看到可以运行的实例程序。 +![image-20201014152606786](img/assignment3/image-20201014152606786.png) +#### 统计词频 + +- 创建目录,并上传测试数据 + +``` +hadoop fs -mkdir /input +hadoop fs -put /home/hadoop/conf/* /input +``` + +- 执行WordCount任务 + +``` +hadoop jar /home/hadoop/hadoop-examples.jar wordcount /input /output 如果/output目录已存在,请删除该目录或使用其他目录。 +``` + +- 查看wordcount任务的结果 + +``` + hadoop fs -cat /output/part-r-00000 +``` + +`**************作业4:统计/home/hadoop/etc/hadoop目录下所有文件的词频并截图,插入实验报告中***************` + +​ **