update assignment3

преди 4 години · 281c69795d
--- a/Assignment3.md
+++ b/Assignment3.md
@ -11,6 +11,7 @@
 - 安装Hadoop集群:  `实验步骤  一)` 
 - 了解并学习简单的Hadoop操作 ：`实验步骤  二)  `
 -  安装Hadoop客户端:  `实验步骤  三)`
 -  MapReduce Job `实验步骤 四）`

 ## 实验要求（仔细看）

@ -25,7 +26,7 @@

 	托管Hadoop集群UHadoop 、 云主机uhost 、 基础网络unet 

 ## 基本知识
 ## 基础知识

    **Hadoop**：一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。

@ -42,7 +43,7 @@

 #### 实验步骤

 #####  一）安装Hadoop集群
 ### 一）安装Hadoop集群

 1.      进入产品页面

@ -58,9 +59,9 @@

       

        **节点设置不需要改变，付费方式选择<font color=red>按时</font>付费**
        **节点设置不需要改变，付费方式选择`按时`付费**

        **根据集群规模不同，所需要的部署时间会有所差异，创建时间基本在<font color=red>15分钟</font>左右。初始，集群的转态是  <font color=red>创建/部署</font>中 ，需等到 状态变为 <font color=red>运行</font> 才能操作集群**
        **根据集群规模不同，所需要的部署时间会有所差异，创建时间基本在`15分钟`左右。初始，集群的转态是  `创建/部署`中 ，需等到 状态变为 `运行` 才能操作集群**

      

@ -90,15 +91,18 @@

            `ssh root@106.75.249.169`       **ip为绑定的外网IP,密码为初始创建集群时的密码**

           **利用hadoop命令查看hdfs目录信息**
           **查看HDFS状态，节点信息**

           `hadoop fs -ls /`
          1. su hadoop  切换到hadoop用户
          2. hdfs dfsadmin -report   查看信息

 <font color=red> ************作业1：请将上述查看到的hdfs的目录信息截图，并插入实验报告中*************** </font>


 `**************作业1：请将上述查看到的节点信息截图，并插入实验报告中***************`

 ##### 二）熟悉基本命令


 ### 二）熟悉基本命令

 >   Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。  我们可以登录Master节点通过一些基本命令操作文件，操作的命令与我们在Linux系统命令类似。

@ -139,7 +143,15 @@

 **更多请参考： hadoop fs -help**

 #####  三） 客户端搭建
 `**************作业2：按照如下要求操作命令并截图，并插入实验报告中***************`

 `作业二要求：`

 > 1. 在本地文件系统生成一个info.txt文件  里面内容是 ：云计算实验课:学号-姓名      eg: echo "云计算实验课:0001-张三" > info.txt
 > 2. 在HDFS文件系统中创建文件夹 test, 然后将该文件上传到该文件夹中  `使用 mkdir 和 put `
 > 3. 使用cat命令查看文件内容并截图  `截图中需要包含文件夹信息`

 ###  三） 客户端搭建

 > 上述的操作命令我们都是在Hadoop集群上直接操作的，出于安全性考虑，通常我们在单独的机器上安装客户端进行任务提交和相关操作。

@ -174,9 +186,13 @@

         **同样我们可以在该UHost上执行HDFS基础操作**

 <font color=red> ************作业2：请将上述查看到的hdfs的目录信息截图，并插入实验报告中*************** </font>
 `**************作业3：按照如下要求操作命令并截图，并插入实验报告中***************`

      `作业三要求：`

 > 1. 在UHost云主机上删除作业二中创建的文件和文件夹并截图 

 ##### 四）MapReduce Job
 ### 四）MapReduce Job

 > MapReduce是一种分布式计算框架 ，以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。MR有两个阶段组成：Map和Reduce，用户只需实现map()和reduce()两个函数，即可实现分布式计算。