Bladeren bron

update assignment3

wangyu
hxlong 4 jaren geleden
bovenliggende
commit
8bfab609f7
1 gewijzigde bestanden met toevoegingen van 26 en 1 verwijderingen
  1. +26
    -1
      Assignment3.md

+ 26
- 1
Assignment3.md Bestand weergeven

@ -191,7 +191,32 @@
### 四)MapReduce Job
> MapReduce是一种分布式计算框架 ,以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。(待完成...............)
> MapReduce是一种分布式计算框架 ,以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。在/home/hadoop/hadoop-examples.jar 中有很多简单的MapReduce实例程序。我们可以通过在master节点执行命令 ` hadoop jar /home/hadoop/hadoop-examples.jar` 可以看到可以运行的实例程序。
![image-20201014152606786](img/assignment3/image-20201014152606786.png)
#### 统计词频
- 创建目录,并上传测试数据
```
hadoop fs -mkdir /input
hadoop fs -put /home/hadoop/conf/* /input
```
- 执行WordCount任务
```
hadoop jar /home/hadoop/hadoop-examples.jar wordcount /input /output 如果/output目录已存在,请删除该目录或使用其他目录。
```
- 查看wordcount任务的结果
```
hadoop fs -cat /output/part-r-00000
```
`**************作业4:统计/home/hadoop/etc/hadoop目录下所有文件的词频并截图,插入实验报告中***************`
​ *<!--(还需设计单线程对比实验,待完成......)-->*

Laden…
Annuleren
Opslaan