|
|
@ -154,7 +154,7 @@ |
|
|
|
> |
|
|
|
> 3. 使用cat命令查看文件内容并截图 `截图中需要包含文件夹信息` (查看的是HDFS文件系统中的info,txt,而不是本地文件系统) |
|
|
|
> |
|
|
|
> `操作时主要使用的用户和目录,避免出现permission denied问题` |
|
|
|
> `操作时注意使用的用户和目录,避免出现permission denied问题` |
|
|
|
|
|
|
|
### 三) 客户端搭建 |
|
|
|
|
|
|
@ -227,6 +227,10 @@ hadoop jar /home/hadoop/hadoop-examples.jar wordcount /input /output 如果/ou |
|
|
|
|
|
|
|
`**************作业4:统计/home/hadoop/etc/hadoop目录下所有文件的词频并截图,插入实验报告中***************` |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
`******特别注意,做完作业4 即可请删除UHadoop集群、EIP 和UHost主机等资源******` |
|
|
|
|
|
|
|
#### WordCount 实现原理 |
|
|
|
|
|
|
|
> MapReduce主要分为两步Map步和Reduce步,引用网上流传很广的一个故事来解释,现在你要统计一个图书馆里面有多少本书,为了完成这个任务,你可以指派小明去统计书架1,指派小红去统计书架2,这个指派的过程就是Map步,最后,每个人统计完属于自己负责的书架后,再对每个人的结果进行累加统计,这个过程就是Reduce步。下图是WordCount的实现原理图,[WordCount实现](https://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.html#用法)。 |
|
|
@ -237,9 +241,9 @@ hadoop jar /home/hadoop/hadoop-examples.jar wordcount /input /output 如果/ou |
|
|
|
|
|
|
|
`作业要求` |
|
|
|
|
|
|
|
> 需要统计的文件夹: [/home/hadoop/etc/hadoop](file/assginment3/hadoop) |
|
|
|
> 需要统计的文件夹: [/home/hadoop/etc/hadoop](file/assignment3/hadoop/) |
|
|
|
> |
|
|
|
> 在本地执行,并记录执行时间 |
|
|
|
|
|
|
|
`******特别注意,实验结束后请删除UHadoop集群、EIP 和UHost主机等资源******` |
|
|
|
|
|
|
|
|