From 281c69795d1aa0f24b67d675b9e4c3e0c3d76d41 Mon Sep 17 00:00:00 2001 From: hxlong <1141741507@qq.com> Date: Wed, 14 Oct 2020 11:14:22 +0800 Subject: [PATCH] update assignment3 --- Assignment3.md | 38 +++++++++++++++++++++++++++----------- 1 file changed, 27 insertions(+), 11 deletions(-) diff --git a/Assignment3.md b/Assignment3.md index e557b0a..c3aa2bf 100644 --- a/Assignment3.md +++ b/Assignment3.md @@ -11,6 +11,7 @@ - 安装Hadoop集群: `实验步骤  一)` - 了解并学习简单的Hadoop操作 :`实验步骤  二)  ` - 安装Hadoop客户端: `实验步骤 三)` +- MapReduce Job `实验步骤 四)` ## 实验要求(仔细看) @@ -25,7 +26,7 @@ ​ 托管Hadoop集群UHadoop 、 云主机uhost 、 基础网络unet -## 基本知识 +## 基础知识 ​ **Hadoop**:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。 @@ -42,7 +43,7 @@ #### 实验步骤 -##### 一)安装Hadoop集群 +### 一)安装Hadoop集群 1. ​ 进入产品页面 @@ -58,9 +59,9 @@ ​ -​ **节点设置不需要改变,付费方式选择按时付费** +​ **节点设置不需要改变,付费方式选择`按时`付费** -​ **根据集群规模不同,所需要的部署时间会有所差异,创建时间基本在15分钟左右。初始,集群的转态是 创建/部署中 ,需等到 状态变为 运行 才能操作集群** +​ **根据集群规模不同,所需要的部署时间会有所差异,创建时间基本在`15分钟`左右。初始,集群的转态是 `创建/部署`中 ,需等到 状态变为 `运行` 才能操作集群** ​ @@ -90,15 +91,18 @@ ​ `ssh root@106.75.249.169` **ip为绑定的外网IP,密码为初始创建集群时的密码** -​ **利用hadoop命令查看hdfs目录信息** +​ **查看HDFS状态,节点信息** -​ `hadoop fs -ls /` + 1. su hadoop 切换到hadoop用户 + 2. hdfs dfsadmin -report 查看信息 - ************作业1:请将上述查看到的hdfs的目录信息截图,并插入实验报告中*************** +`**************作业1:请将上述查看到的节点信息截图,并插入实验报告中***************` -##### 二)熟悉基本命令 + + +### 二)熟悉基本命令 > Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。 我们可以登录Master节点通过一些基本命令操作文件,操作的命令与我们在Linux系统命令类似。 @@ -139,7 +143,15 @@ **更多请参考: hadoop fs -help** -##### 三) 客户端搭建 +`**************作业2:按照如下要求操作命令并截图,并插入实验报告中***************` + + `作业二要求:` + +> 1. 在本地文件系统生成一个info.txt文件 里面内容是 :云计算实验课:学号-姓名 eg: echo "云计算实验课:0001-张三" > info.txt +> 2. 在HDFS文件系统中创建文件夹 test, 然后将该文件上传到该文件夹中 `使用 mkdir 和 put ` +> 3. 使用cat命令查看文件内容并截图 `截图中需要包含文件夹信息` + +### 三) 客户端搭建 > 上述的操作命令我们都是在Hadoop集群上直接操作的,出于安全性考虑,通常我们在单独的机器上安装客户端进行任务提交和相关操作。 @@ -174,9 +186,13 @@ ​ **同样我们可以在该UHost上执行HDFS基础操作** - ************作业2:请将上述查看到的hdfs的目录信息截图,并插入实验报告中*************** +`**************作业3:按照如下要求操作命令并截图,并插入实验报告中***************` + +​ `作业三要求:` + +> 1. 在UHost云主机上删除作业二中创建的文件和文件夹并截图 -##### 四)MapReduce Job +### 四)MapReduce Job > MapReduce是一种分布式计算框架 ,以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。