|
|
@ -191,7 +191,32 @@ |
|
|
|
|
|
|
|
### 四)MapReduce Job |
|
|
|
|
|
|
|
> MapReduce是一种分布式计算框架 ,以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。(待完成...............) |
|
|
|
> MapReduce是一种分布式计算框架 ,以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。在/home/hadoop/hadoop-examples.jar 中有很多简单的MapReduce实例程序。我们可以通过在master节点执行命令 ` hadoop jar /home/hadoop/hadoop-examples.jar` 可以看到可以运行的实例程序。 |
|
|
|
|
|
|
|
![image-20201014152606786](img/assignment3/image-20201014152606786.png) |
|
|
|
|
|
|
|
#### 统计词频 |
|
|
|
|
|
|
|
- 创建目录,并上传测试数据 |
|
|
|
|
|
|
|
``` |
|
|
|
hadoop fs -mkdir /input |
|
|
|
hadoop fs -put /home/hadoop/conf/* /input |
|
|
|
``` |
|
|
|
|
|
|
|
- 执行WordCount任务 |
|
|
|
|
|
|
|
``` |
|
|
|
hadoop jar /home/hadoop/hadoop-examples.jar wordcount /input /output 如果/output目录已存在,请删除该目录或使用其他目录。 |
|
|
|
``` |
|
|
|
|
|
|
|
- 查看wordcount任务的结果 |
|
|
|
|
|
|
|
``` |
|
|
|
hadoop fs -cat /output/part-r-00000 |
|
|
|
``` |
|
|
|
|
|
|
|
`**************作业4:统计/home/hadoop/etc/hadoop目录下所有文件的词频并截图,插入实验报告中***************` |
|
|
|
|
|
|
|
*<!--(还需设计单线程对比实验,待完成......)-->* |
|
|
|
|