update assignment3

4 年前 · 8bfab609f7
--- a/Assignment3.md
+++ b/Assignment3.md
@ -191,7 +191,32 @@
 ### 四）MapReduce Job
 > MapReduce是一种分布式计算框架 ，以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。MR有两个阶段组成：Map和Reduce，用户只需实现map()和reduce()两个函数，即可实现分布式计算。（待完成...............）
 > MapReduce是一种分布式计算框架 ，以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。MR有两个阶段组成：Map和Reduce，用户只需实现map()和reduce()两个函数，即可实现分布式计算。在/home/hadoop/hadoop-examples.jar 中有很多简单的MapReduce实例程序。我们可以通过在master节点执行命令 ` hadoop jar /home/hadoop/hadoop-examples.jar`   可以看到可以运行的实例程序。
 ![image-20201014152606786](img/assignment3/image-20201014152606786.png)
 #### 统计词频
 - 创建目录，并上传测试数据
 ```
 hadoop fs -mkdir /input
 hadoop fs -put /home/hadoop/conf/* /input
 ```
 - 执行WordCount任务
 ```
 hadoop jar /home/hadoop/hadoop-examples.jar wordcount /input /output   如果/output目录已存在，请删除该目录或使用其他目录。
 ```
 - 查看wordcount任务的结果
 ```
 hadoop fs -cat /output/part-r-00000
 ```
 `**************作业4：统计/home/hadoop/etc/hadoop目录下所有文件的词频并截图，插入实验报告中***************`
    *<!--(还需设计单线程对比实验，待完成......)-->*