Update Assignment8.md

4 年前 · 88f10f7a8f
--- a/Assignment8.md
+++ b/Assignment8.md
@ -29,7 +29,9 @@
 ## 基础知识


 `K8S:` 请参考https://www.yuque.com/serviceup/cloud-native-talks/k8s-roadmap-primary
 `K8S理论:` 请参考 https://www.yuque.com/serviceup/cloud-native-talks/k8s-roadmap-primary

 `K8S实训:` 更多内容请参考 https://kubernetes.io/docs/tutorials/


 ## 实验步骤
@ -79,6 +81,14 @@ kubectl version -o json

 > 在概览中查看“外网凭证”，并复制凭证内容。

 <kbd>
  <img src="img/assignment8/ass8-gailan.png">
 </kbd>

 <kbd>
  <img src="img/assignment8/ass8-pinzheng.png">
 </kbd>

 > 在云主机中创建~/.kube文件夹，然后创建~/.kube/config文件，并将凭证内容粘贴到该文件中。


@ -100,233 +110,111 @@ kubectl get services            //打印service信息



 ### 三）在K8S部署一个应用
 ### 三）在K8S上部署一个应用

 #### 1）
 #### 1）运行以下命令，部署一个assignment2中的静态网页app

 ```
 sudo yum mount -t nfs4 你的文件存储IP地址:/ /mnt
 kubectl create deployment webapp --image=uhub-edu.service.ucloud.cn/cloud_computing/static_site
 ```

 #### 4）运行如下命令查看当前云主机的文件系统
 > webapp是deployment的名字，可以随意。也就是说，我们创建了一个webapp部署，部署的内容是包含一个静态网页的docker；部署过程中打包了一个pod，包含了该应用

 ```
 df -hT
 ```

 你应该看到如下图所示内容
 #### 2）用上面提到的基本命令查看应用部署信息和pod信息，得到如下图所示信息

 <kbd>
  <img src="img/assignment7/ass7-df.png">
  <img src="img/assignment8/ass8-deployment.png">
 </kbd>


 ## `**************作业2：请将df -hT的运行后界面截图，并插入实验报告***************`



 ### 三）在水杉码园创建一个仓库，并下载至文件存储

 #### 1）登录水杉在线，并进入水杉码园。创建一个仓库mnist（你也可以用其他命名，但后续操作请做相应修改），创建完毕后，找到你的仓库ssh地址，备用

 <kbd>
  <img src="img/assignment7/ass7-createrepo1.png">
 </kbd>
 <kbd>
  <img src="img/assignment7/ass7-createrepo2.png">
 </kbd>
 <kbd>
  <img src="img/assignment7/ass7-sshaddr.png">
 </kbd>

 #### 2）在云主机上安装git，并配置一下
 #### 3）这时我们需要用kubectl创建一个代理，使得从云主机可以访问集群（从而访问pod）。打开一个新的Terminal或者XShell窗口

 ```
 sudo yum install -y git
 git config --global user.name "陆雪松"
 git config --global user.email "xuesong.lu.dase@gmail.com"
 echo -e "\n\e[92mStarting Proxy. After starting it will not output a response. Please click the first Terminal Tab\n"; kubectl proxy
 ```

 #### 3）生成云主机密钥，使用密钥访问水杉码园
 > 你应该看到“Starting to serve on 127.0.0.1:8001”，表示代理设置成功

 ```
 ssh-keygen
 ```
 不用在提示符中输入任何内容，连摁回车，密钥即生成。可以在~/.ssh/下看到你生成的两个密钥，id_rsa是私钥，id_rsa.pub是公钥。如果你使用root账号，密钥在/root/.ssh/目录下。接下来我们要把公钥给码园，以后从这台云主机访问码园，云主机会把私钥提供给码园进行身份验证。

 #### 4）打印并复制公钥的内容
 #### 4）访问webapp应用（访问pod）

 ```
 cat ~/.ssh/id_rsa.pub
 export POD_NAME=$(kubectl get pods -o go-template --template '{{range .items}}{{.metadata.name}}{{"\n}}{{end}}')
 echo Name of the Pod: $POD_NAME     //如果这一步没有输出，说明$POD_NAME没有获得pod名称，可以把kubectl get pods得到的pod名字直接赋给$POD_NAME。
 curl http://localhost:8001/api/v1/namespaces/default/pods/$POD_NAME/proxy/
 ```

 复制屏幕上出现的公钥内容
 > 可以看到网页的html输出，说明应用部署成功

 ## `**************作业3：请将上面最后一个命令输出的信息截图，并插入实验报告***************`

 #### 5）在码园中创建公钥，并粘贴上述公钥内容

 <kbd>
  <img src="img/assignment7/ass7-key1.png">
 </kbd>
 <kbd>
  <img src="img/assignment7/ass7-key2.png">
 </kbd>
 <kbd>
  <img src="img/assignment7/ass7-key3.png">
 </kbd>

 ### 四）创建多个webapp副本，并创建一个service对外提供服务

 #### 6）在云主机上运行如下命令，取消码园密码访问
 #### 1）查看pod当前副本信息

 ```
 eval 'ssh-agent -s'
 exec ssh-agent bash
 ssh-add ~/.ssh/id_rsa
 ssh -T root@gitea.shuishan.net.cn
 kubectl get rs
 ```

 如果你看到类似如下输出，说明密钥访问设置成功
 > 可以看到只有一个副本，也就是之前我们手动部署的那个

 <kbd>
  <img src="img/assignment7/ass7-key4.png">
 </kbd>

 #### 7）将mnist仓库下载到文件储存
 #### 2）查看pod的详细信息

 ```
 cd /mnt
 sudo mkdir mnist
 sudo chown xuesong:xuesong mnist   //更改mnist文件夹拥有者（即你的云主机登录账号）。假如你使用root账号，这步不需要
 cd mnist
 git init
 git pull root@gitea.shuishan.net.cn:luxuesong_dase_ecnu_edu_cn/mnist.git   //将pull后面的内容替换成你仓库的ssh地址
 kubectl get pods -o wide
 ```

 #### 8）在mnist下面新建三个目录code，data，output，下一个步骤中会使用。创建完毕后，你的mnist文件夹应该有如下结构。

 <kbd>
  <img src="img/assignment7/ass7-tree.png">
 </kbd>

 在步骤四）和五）中，我们将代码放在code文件夹中，数据放在data中，模型放在output中


 ## `**************作业3：请在mnist目录下运行ls -la命令并截图，插入实验报告***************`


 ### 四）创建UAI Train交互式训练任务，并切换成`编辑模式` （重要！！）

 #### 1）在UCloud产品中人工智能分类下面，选择"AI训练服务 UAI Train"，点击“交互式训练”选项卡->创建交互式训练任务

 #### 2）任务命名随意，在执行信息里面，输入Ucloud账号的公钥和私钥（右上角“API密钥”），代码镜像路径为默认，其余路径均选择UFS，然后如下图所示配置

 <kbd>
  <img src="img/assignment7/ass7-aitrain.png">
 </kbd>

 > 简要说明一下交互式训练的工作原理：启动任务的时候，UAI Train会运行一个docker容器，可以是UCloud的默认镜像，也可以是你自己创建的镜像，默认镜像已经安装了python，pytorch，tensorflow等等工具。我们配置的上述UFS路径，UAI Train会将他们映射到容器的/data目录下。也就是说，mnist/data会映射到容器的/data/data目录，mnist/code会映射到容器的/data/code目录。接下来我们便可以在容器中访问这些路径，运行代码。

 #### 3）配置完毕，创建任务，等状态变成“执行中”，说明创建成功。

 <kbd>
  <img src="img/assignment7/ass7-trainjob.png">
 </kbd>

 #### 4）这一步非常重要！！创建成功后，立即将任务模式从“训练模式”切换成`编辑模式`。

 > 点击“切换”

 <kbd>
  <img src="img/assignment7/ass7-switch1.png">
 </kbd>

 > 选择一个镜像库，填入要保存的镜像名。如果你的项目中还没有镜像库，则新建一个镜像库。
 > 可以看到pod部署的NODE的ip信息，正是集群中的一个node。k8s自动选择了这个node进行部署。

 <kbd>
  <img src="img/assignment7/ass7-switch2.png">
  <img src="img/assignment8/ass8-1rs.png">
 </kbd>

 > 填入公钥和私钥，点击“确定”

 <kbd>
  <img src="img/assignment7/ass7-switch3.png">
 </kbd>

 > 等待几分钟，等运行状态重新变成“执行中”，说明切换成功。这时候任务模式已经是“编辑模式”。

 <kbd>
  <img src="img/assignment7/ass7-switch4.png">
 </kbd>

 说明：这么做的原因只有一个，训练模式跑的是GPU，太烧钱 :joy: :joy: ！！
 写代码时是不需要GPU的，所以切换到编辑模式，跑在CPU机器上；当代码完成，需要大规模训练的时候，才使用训练模式。

 ## 本实验不需要用到GPU，请确保一直在编辑模式下完成实验！！并且，实验暂停时，请点击“停止”暂停任务，这样便不会收费

 <kbd>
  <img src="img/assignment7/ass7-switch5.png">
 </kbd>

 #### 3）现在让我们用一行命令将副本scale到10个，然后再次查看pod详细信息

 ## `**************作业4：请将编辑模式页面截图，插入实验报告***************`


 ### 五）使用交互式训练任务训练MNIST识别模型，最后将所有内容同步到水杉码园
 ```
 kubectl scale deployments/webapp --replicas=10
 kubectl get pods -o wide
 ```

 #### 1）点击训练任务的“Jupyter”按钮，进入jupyter notebook，我们看到了文件存储上的三个文件夹code，data和output，因为我们将它们映射到了容器中。
 > 可以看到此时有10个运行webapp的pod，运行在集群中的4个node节点上（为什么不是5个？答案最后揭晓）

 <kbd>
  <img src="img/assignment7/ass7-jupynote.png">
 </kbd>
 ## `**************作业4：请将上述有10个pod的打印信息截图，并插入实验报告***************`

 #### 2）点击进入code，新建一个tensorflow的notebook，并重命名为mnist，然后保存文件

 <kbd>
  <img src="img/assignment7/ass7-tf.png">
 </kbd>

 <kbd>
  <img src="img/assignment7/ass7-jupynotern.png">
 </kbd>
 ### 五）最后，让我们将webapp暴露给公网，从而可以从外部访问页面

 #### 3）回到云主机，进入/mnt/mnist/data目录，下载mnist数据集。完成后你的mnist目录结构应该如下图所示（output中可能略有不同）
 #### 1）创建一个负载均衡service，将webapp暴露给外网

 ```
 wget https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
 kubectl expose deployment webapp --type=LoadBalancer --port=80
 ```

 <kbd>
  <img src="img/assignment7/ass7-mnisttree.png">
 </kbd>

 #### 4）此时让我们先把这些文件push一把，同步到码园中。在/mnt/mnist下，运行
 #### 2）查看当前的service，你可以找到负载均衡服务的外网ip地址

 ```
 git remote add origin root@gitea.shuishan.net.cn:luxuesong_dase_ecnu_edu_cn/mnist.git   //替换成你的码园仓库
 git add .
 git commit -m "xuesong's first commit"
 git push origin master
 kubectl get services
 ```

 没有报错则成功push，去水杉码园查看你的仓库验证。

 #### 5）下载mnist训练代码[mnist.py](file/assignment7/mnist.py)，并在刚刚创建的mnist.ipynb中验证、训练一个模型。


 ## `**************作业5：上述代码训练的模型，在测试集上精度较低（如下图），请把测试集上的精度提升到95%以上（即运行model.evaluate(x_test,  y_test)后，accurray在95%以上），将运行结果截图并插入实验报告***************`

 <kbd>
  <img src="img/assignment7/ass7-mnisteva.png">
  <img src="img/assignment8/ass8-ulb.png">
 </kbd>

 #### 3）在你自己的电脑上，打开浏览器，访问http://负载均衡服务的外网ip地址

 > 提示：你可以尝试增加epoch，也可以尝试更换优化器，其他优化器有Adagrad, RMSprop, Adam等

 ## `**************作业5：请将kubectl get services输出信息截图、并将浏览器地址栏和网页内容一起截图，并插入实验报告***************`


 #### 6）保存训练代码，并push到水杉码园中。
 #### 4）删除service，删除所有pod，最后在网页上删除集群。

 ```
 git add .
 git commit -m "commit source code and model"
 git push origin master
 kubectl delete service webapp
 kubectl delete deployment webapp
 ```


 #### 5）还有一个答案没有揭晓：我也不知道，留给大家自己探索 :stuck_out_tongue_winking_eye: