|
|
@ -11,6 +11,7 @@ |
|
|
|
- 安装Hadoop集群: `实验步骤 一)` |
|
|
|
- 了解并学习简单的Hadoop操作 :`实验步骤 二) ` |
|
|
|
- 安装Hadoop客户端: `实验步骤 三)` |
|
|
|
- MapReduce Job `实验步骤 四)` |
|
|
|
|
|
|
|
## 实验要求(仔细看) |
|
|
|
|
|
|
@ -25,7 +26,7 @@ |
|
|
|
|
|
|
|
托管Hadoop集群UHadoop 、 云主机uhost 、 基础网络unet |
|
|
|
|
|
|
|
## 基本知识 |
|
|
|
## 基础知识 |
|
|
|
|
|
|
|
**Hadoop**:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。 |
|
|
|
|
|
|
@ -42,7 +43,7 @@ |
|
|
|
|
|
|
|
#### 实验步骤 |
|
|
|
|
|
|
|
##### 一)安装Hadoop集群 |
|
|
|
### 一)安装Hadoop集群 |
|
|
|
|
|
|
|
1. 进入产品页面 |
|
|
|
|
|
|
@ -58,9 +59,9 @@ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
**节点设置不需要改变,付费方式选择<font color=red>按时</font>付费** |
|
|
|
**节点设置不需要改变,付费方式选择`按时`付费** |
|
|
|
|
|
|
|
**根据集群规模不同,所需要的部署时间会有所差异,创建时间基本在<font color=red>15分钟</font>左右。初始,集群的转态是 <font color=red>创建/部署</font>中 ,需等到 状态变为 <font color=red>运行</font> 才能操作集群** |
|
|
|
**根据集群规模不同,所需要的部署时间会有所差异,创建时间基本在`15分钟`左右。初始,集群的转态是 `创建/部署`中 ,需等到 状态变为 `运行` 才能操作集群** |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
@ -90,15 +91,18 @@ |
|
|
|
|
|
|
|
`ssh root@106.75.249.169` **ip为绑定的外网IP,密码为初始创建集群时的密码** |
|
|
|
|
|
|
|
**利用hadoop命令查看hdfs目录信息** |
|
|
|
**查看HDFS状态,节点信息** |
|
|
|
|
|
|
|
`hadoop fs -ls /` |
|
|
|
1. su hadoop 切换到hadoop用户 |
|
|
|
2. hdfs dfsadmin -report 查看信息 |
|
|
|
|
|
|
|
<font color=red> ************作业1:请将上述查看到的hdfs的目录信息截图,并插入实验报告中*************** </font> |
|
|
|
|
|
|
|
|
|
|
|
`**************作业1:请将上述查看到的节点信息截图,并插入实验报告中***************` |
|
|
|
|
|
|
|
##### 二)熟悉基本命令 |
|
|
|
|
|
|
|
|
|
|
|
### 二)熟悉基本命令 |
|
|
|
|
|
|
|
> Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。 我们可以登录Master节点通过一些基本命令操作文件,操作的命令与我们在Linux系统命令类似。 |
|
|
|
|
|
|
@ -139,7 +143,15 @@ |
|
|
|
|
|
|
|
**更多请参考: hadoop fs -help** |
|
|
|
|
|
|
|
##### 三) 客户端搭建 |
|
|
|
`**************作业2:按照如下要求操作命令并截图,并插入实验报告中***************` |
|
|
|
|
|
|
|
`作业二要求:` |
|
|
|
|
|
|
|
> 1. 在本地文件系统生成一个info.txt文件 里面内容是 :云计算实验课:学号-姓名 eg: echo "云计算实验课:0001-张三" > info.txt |
|
|
|
> 2. 在HDFS文件系统中创建文件夹 test, 然后将该文件上传到该文件夹中 `使用 mkdir 和 put ` |
|
|
|
> 3. 使用cat命令查看文件内容并截图 `截图中需要包含文件夹信息` |
|
|
|
|
|
|
|
### 三) 客户端搭建 |
|
|
|
|
|
|
|
> 上述的操作命令我们都是在Hadoop集群上直接操作的,出于安全性考虑,通常我们在单独的机器上安装客户端进行任务提交和相关操作。 |
|
|
|
|
|
|
@ -174,9 +186,13 @@ |
|
|
|
|
|
|
|
**同样我们可以在该UHost上执行HDFS基础操作** |
|
|
|
|
|
|
|
<font color=red> ************作业2:请将上述查看到的hdfs的目录信息截图,并插入实验报告中*************** </font> |
|
|
|
`**************作业3:按照如下要求操作命令并截图,并插入实验报告中***************` |
|
|
|
|
|
|
|
`作业三要求:` |
|
|
|
|
|
|
|
> 1. 在UHost云主机上删除作业二中创建的文件和文件夹并截图 |
|
|
|
|
|
|
|
##### 四)MapReduce Job |
|
|
|
### 四)MapReduce Job |
|
|
|
|
|
|
|
> MapReduce是一种分布式计算框架 ,以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。 |
|
|
|
|
|
|
|