diff --git a/Assignment2.md b/Assignment2.md index bba0bac..fcf9109 100644 --- a/Assignment2.md +++ b/Assignment2.md @@ -181,7 +181,6 @@ hello from busybox ``` ##### hint:通常,docker image不在运行时叫image,加载运行以后叫container - `**************作业1:请将上述涉及docker run/image的操作界面截图,并插入实验报告中***************` ### 二) 熟悉Docker指令 diff --git a/Assignment3.md b/Assignment3.md index bd26e6e..2b37257 100644 --- a/Assignment3.md +++ b/Assignment3.md @@ -197,7 +197,7 @@ #### 统计词频 -- 创建目录,并上传测试数据 +- 创建目录,并上传测试数据(`所有操作在集群的master节点执行`) ``` hadoop fs -mkdir /input @@ -218,5 +218,15 @@ hadoop jar /home/hadoop/hadoop-examples.jar wordcount /input /output 如果/ou `**************作业4:统计/home/hadoop/etc/hadoop目录下所有文件的词频并截图,插入实验报告中***************` -​ ** +#### WordCount 实现原理 + +> MapReduce主要分为两步Map步和Reduce步,引用网上流传很广的一个故事来解释,现在你要统计一个图书馆里面有多少本书,为了完成这个任务,你可以指派小明去统计书架1,指派小红去统计书架2,这个指派的过程就是Map步,最后,每个人统计完属于自己负责的书架后,再对每个人的结果进行累加统计,这个过程就是Reduce步。下图是WordCount的实现原理图,[WordCount实现](https://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.html#用法)。 + +![image-20201015170801613](img/assignment3/image-20201015170801613.png) + +`**************作业5:用任何语言实现单线程的wordcount,然后给出运行时间截图,插入实验报告中***************` + + + +`******特别注意,实验结束后请删除UHadoop集群、EIP 和UHost主机******` diff --git a/file/assignment3/学号-实验三.docx b/file/assignment3/学号-实验三.docx index 5514269..2b00a62 100644 Binary files a/file/assignment3/学号-实验三.docx and b/file/assignment3/学号-实验三.docx differ diff --git a/img/assignment3/image-20201015170801613.png b/img/assignment3/image-20201015170801613.png new file mode 100644 index 0000000..86284e0 Binary files /dev/null and b/img/assignment3/image-20201015170801613.png differ