Przeglądaj źródła

update assignment3

wangyu
hxlong 4 lat temu
rodzic
commit
281c69795d
1 zmienionych plików z 27 dodań i 11 usunięć
  1. +27
    -11
      Assignment3.md

+ 27
- 11
Assignment3.md Wyświetl plik

@ -11,6 +11,7 @@
- 安装Hadoop集群: `实验步骤  一)`
- 了解并学习简单的Hadoop操作 :`实验步骤  二)  `
- 安装Hadoop客户端: `实验步骤 三)`
- MapReduce Job `实验步骤 四)`
## 实验要求(仔细看)
@ -25,7 +26,7 @@
​ 托管Hadoop集群UHadoop 、 云主机uhost 、 基础网络unet
## 基知识
## 基知识
**Hadoop**:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。
@ -42,7 +43,7 @@
#### 实验步骤
##### 一)安装Hadoop集群
### 一)安装Hadoop集群
1. ​ 进入产品页面
@ -58,9 +59,9 @@
​ **节点设置不需要改变,付费方式选择<font color=red>按时</font>付费**
​ **节点设置不需要改变,付费方式选择`按时`付费**
​ **根据集群规模不同,所需要的部署时间会有所差异,创建时间基本在<font color=red>15分钟</font>左右。初始,集群的转态是 <font color=red>创建/部署</font>中 ,需等到 状态变为 <font color=red>运行</font> 才能操作集群**
​ **根据集群规模不同,所需要的部署时间会有所差异,创建时间基本在`15分钟`左右。初始,集群的转态是 `创建/部署`中 ,需等到 状态变为 `运行` 才能操作集群**
@ -90,15 +91,18 @@
`ssh root@106.75.249.169` **ip为绑定的外网IP,密码为初始创建集群时的密码**
​ **利用hadoop命令查看hdfs目录信息**
​ **查看HDFS状态,节点信息**
`hadoop fs -ls /`
1. su hadoop 切换到hadoop用户
2. hdfs dfsadmin -report 查看信息
<font color=red> ************作业1:请将上述查看到的hdfs的目录信息截图,并插入实验报告中*************** </font>
`**************作业1:请将上述查看到的节点信息截图,并插入实验报告中***************`
##### 二)熟悉基本命令
### 二)熟悉基本命令
> Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。 我们可以登录Master节点通过一些基本命令操作文件,操作的命令与我们在Linux系统命令类似。
@ -139,7 +143,15 @@
**更多请参考: hadoop fs -help**
##### 三) 客户端搭建
`**************作业2:按照如下要求操作命令并截图,并插入实验报告中***************`
`作业二要求:`
> 1. 在本地文件系统生成一个info.txt文件 里面内容是 :云计算实验课:学号-姓名 eg: echo "云计算实验课:0001-张三" > info.txt
> 2. 在HDFS文件系统中创建文件夹 test, 然后将该文件上传到该文件夹中 `使用 mkdir 和 put `
> 3. 使用cat命令查看文件内容并截图 `截图中需要包含文件夹信息`
### 三) 客户端搭建
> 上述的操作命令我们都是在Hadoop集群上直接操作的,出于安全性考虑,通常我们在单独的机器上安装客户端进行任务提交和相关操作。
@ -174,9 +186,13 @@
​ **同样我们可以在该UHost上执行HDFS基础操作**
<font color=red> ************作业2:请将上述查看到的hdfs的目录信息截图,并插入实验报告中*************** </font>
`**************作业3:按照如下要求操作命令并截图,并插入实验报告中***************`
`作业三要求:`
> 1. 在UHost云主机上删除作业二中创建的文件和文件夹并截图
##### 四)MapReduce Job
### 四)MapReduce Job
> MapReduce是一种分布式计算框架 ,以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。

Ładowanie…
Anuluj
Zapisz