From 88f10f7a8fdb0e9ba390c071a02e530be28c29fa Mon Sep 17 00:00:00 2001 From: xuesong Date: Fri, 4 Dec 2020 01:14:06 +0800 Subject: [PATCH] Update Assignment8.md --- Assignment8.md | 224 +++++++++++++++------------------------------------------ 1 file changed, 56 insertions(+), 168 deletions(-) diff --git a/Assignment8.md b/Assignment8.md index 08116ae..8787c8f 100644 --- a/Assignment8.md +++ b/Assignment8.md @@ -29,7 +29,9 @@ ## 基础知识 -`K8S:` 请参考https://www.yuque.com/serviceup/cloud-native-talks/k8s-roadmap-primary +`K8S理论:` 请参考 https://www.yuque.com/serviceup/cloud-native-talks/k8s-roadmap-primary + +`K8S实训:` 更多内容请参考 https://kubernetes.io/docs/tutorials/ ## 实验步骤 @@ -79,6 +81,14 @@ kubectl version -o json > 在概览中查看“外网凭证”,并复制凭证内容。 + + + + + + + + > 在云主机中创建~/.kube文件夹,然后创建~/.kube/config文件,并将凭证内容粘贴到该文件中。 @@ -100,233 +110,111 @@ kubectl get services //打印service信息 -### 三)在K8S部署一个应用 +### 三)在K8S上部署一个应用 -#### 1) +#### 1)运行以下命令,部署一个assignment2中的静态网页app ``` -sudo yum mount -t nfs4 你的文件存储IP地址:/ /mnt +kubectl create deployment webapp --image=uhub-edu.service.ucloud.cn/cloud_computing/static_site ``` -#### 4)运行如下命令查看当前云主机的文件系统 +> webapp是deployment的名字,可以随意。也就是说,我们创建了一个webapp部署,部署的内容是包含一个静态网页的docker;部署过程中打包了一个pod,包含了该应用 -``` -df -hT -``` -你应该看到如下图所示内容 +#### 2)用上面提到的基本命令查看应用部署信息和pod信息,得到如下图所示信息 - + - -## `**************作业2:请将df -hT的运行后界面截图,并插入实验报告***************` - - - -### 三)在水杉码园创建一个仓库,并下载至文件存储 - -#### 1)登录水杉在线,并进入水杉码园。创建一个仓库mnist(你也可以用其他命名,但后续操作请做相应修改),创建完毕后,找到你的仓库ssh地址,备用 - - - - - - - - - - - -#### 2)在云主机上安装git,并配置一下 +#### 3)这时我们需要用kubectl创建一个代理,使得从云主机可以访问集群(从而访问pod)。打开一个新的Terminal或者XShell窗口 ``` -sudo yum install -y git -git config --global user.name "陆雪松" -git config --global user.email "xuesong.lu.dase@gmail.com" +echo -e "\n\e[92mStarting Proxy. After starting it will not output a response. Please click the first Terminal Tab\n"; kubectl proxy ``` -#### 3)生成云主机密钥,使用密钥访问水杉码园 +> 你应该看到“Starting to serve on 127.0.0.1:8001”,表示代理设置成功 -``` -ssh-keygen -``` -不用在提示符中输入任何内容,连摁回车,密钥即生成。可以在~/.ssh/下看到你生成的两个密钥,id_rsa是私钥,id_rsa.pub是公钥。如果你使用root账号,密钥在/root/.ssh/目录下。接下来我们要把公钥给码园,以后从这台云主机访问码园,云主机会把私钥提供给码园进行身份验证。 -#### 4)打印并复制公钥的内容 +#### 4)访问webapp应用(访问pod) ``` -cat ~/.ssh/id_rsa.pub +export POD_NAME=$(kubectl get pods -o go-template --template '{{range .items}}{{.metadata.name}}{{"\n}}{{end}}') +echo Name of the Pod: $POD_NAME //如果这一步没有输出,说明$POD_NAME没有获得pod名称,可以把kubectl get pods得到的pod名字直接赋给$POD_NAME。 +curl http://localhost:8001/api/v1/namespaces/default/pods/$POD_NAME/proxy/ ``` -复制屏幕上出现的公钥内容 +> 可以看到网页的html输出,说明应用部署成功 + +## `**************作业3:请将上面最后一个命令输出的信息截图,并插入实验报告***************` -#### 5)在码园中创建公钥,并粘贴上述公钥内容 - - - - - - - - - +### 四)创建多个webapp副本,并创建一个service对外提供服务 -#### 6)在云主机上运行如下命令,取消码园密码访问 +#### 1)查看pod当前副本信息 ``` -eval 'ssh-agent -s' -exec ssh-agent bash -ssh-add ~/.ssh/id_rsa -ssh -T root@gitea.shuishan.net.cn +kubectl get rs ``` -如果你看到类似如下输出,说明密钥访问设置成功 +> 可以看到只有一个副本,也就是之前我们手动部署的那个 - - - -#### 7)将mnist仓库下载到文件储存 +#### 2)查看pod的详细信息 ``` -cd /mnt -sudo mkdir mnist -sudo chown xuesong:xuesong mnist //更改mnist文件夹拥有者(即你的云主机登录账号)。假如你使用root账号,这步不需要 -cd mnist -git init -git pull root@gitea.shuishan.net.cn:luxuesong_dase_ecnu_edu_cn/mnist.git //将pull后面的内容替换成你仓库的ssh地址 +kubectl get pods -o wide ``` -#### 8)在mnist下面新建三个目录code,data,output,下一个步骤中会使用。创建完毕后,你的mnist文件夹应该有如下结构。 - - - - - -在步骤四)和五)中,我们将代码放在code文件夹中,数据放在data中,模型放在output中 - - -## `**************作业3:请在mnist目录下运行ls -la命令并截图,插入实验报告***************` - - -### 四)创建UAI Train交互式训练任务,并切换成`编辑模式` (重要!!) - -#### 1)在UCloud产品中人工智能分类下面,选择"AI训练服务 UAI Train",点击“交互式训练”选项卡->创建交互式训练任务 - -#### 2)任务命名随意,在执行信息里面,输入Ucloud账号的公钥和私钥(右上角“API密钥”),代码镜像路径为默认,其余路径均选择UFS,然后如下图所示配置 - - - - - -> 简要说明一下交互式训练的工作原理:启动任务的时候,UAI Train会运行一个docker容器,可以是UCloud的默认镜像,也可以是你自己创建的镜像,默认镜像已经安装了python,pytorch,tensorflow等等工具。我们配置的上述UFS路径,UAI Train会将他们映射到容器的/data目录下。也就是说,mnist/data会映射到容器的/data/data目录,mnist/code会映射到容器的/data/code目录。接下来我们便可以在容器中访问这些路径,运行代码。 - -#### 3)配置完毕,创建任务,等状态变成“执行中”,说明创建成功。 - - - - - -#### 4)这一步非常重要!!创建成功后,立即将任务模式从“训练模式”切换成`编辑模式`。 - -> 点击“切换” - - - - - -> 选择一个镜像库,填入要保存的镜像名。如果你的项目中还没有镜像库,则新建一个镜像库。 +> 可以看到pod部署的NODE的ip信息,正是集群中的一个node。k8s自动选择了这个node进行部署。 - + -> 填入公钥和私钥,点击“确定” - - - - -> 等待几分钟,等运行状态重新变成“执行中”,说明切换成功。这时候任务模式已经是“编辑模式”。 - - - - - -说明:这么做的原因只有一个,训练模式跑的是GPU,太烧钱 :joy: :joy: !! -写代码时是不需要GPU的,所以切换到编辑模式,跑在CPU机器上;当代码完成,需要大规模训练的时候,才使用训练模式。 - -## 本实验不需要用到GPU,请确保一直在编辑模式下完成实验!!并且,实验暂停时,请点击“停止”暂停任务,这样便不会收费 - - - - +#### 3)现在让我们用一行命令将副本scale到10个,然后再次查看pod详细信息 -## `**************作业4:请将编辑模式页面截图,插入实验报告***************` - - -### 五)使用交互式训练任务训练MNIST识别模型,最后将所有内容同步到水杉码园 +``` +kubectl scale deployments/webapp --replicas=10 +kubectl get pods -o wide +``` -#### 1)点击训练任务的“Jupyter”按钮,进入jupyter notebook,我们看到了文件存储上的三个文件夹code,data和output,因为我们将它们映射到了容器中。 +> 可以看到此时有10个运行webapp的pod,运行在集群中的4个node节点上(为什么不是5个?答案最后揭晓) - - - +## `**************作业4:请将上述有10个pod的打印信息截图,并插入实验报告***************` -#### 2)点击进入code,新建一个tensorflow的notebook,并重命名为mnist,然后保存文件 - - - - - - - +### 五)最后,让我们将webapp暴露给公网,从而可以从外部访问页面 -#### 3)回到云主机,进入/mnt/mnist/data目录,下载mnist数据集。完成后你的mnist目录结构应该如下图所示(output中可能略有不同) +#### 1)创建一个负载均衡service,将webapp暴露给外网 ``` -wget https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz +kubectl expose deployment webapp --type=LoadBalancer --port=80 ``` - - - - -#### 4)此时让我们先把这些文件push一把,同步到码园中。在/mnt/mnist下,运行 +#### 2)查看当前的service,你可以找到负载均衡服务的外网ip地址 ``` -git remote add origin root@gitea.shuishan.net.cn:luxuesong_dase_ecnu_edu_cn/mnist.git //替换成你的码园仓库 -git add . -git commit -m "xuesong's first commit" -git push origin master +kubectl get services ``` - -没有报错则成功push,去水杉码园查看你的仓库验证。 - -#### 5)下载mnist训练代码[mnist.py](file/assignment7/mnist.py),并在刚刚创建的mnist.ipynb中验证、训练一个模型。 - - -## `**************作业5:上述代码训练的模型,在测试集上精度较低(如下图),请把测试集上的精度提升到95%以上(即运行model.evaluate(x_test, y_test)后,accurray在95%以上),将运行结果截图并插入实验报告***************` - - + +#### 3)在你自己的电脑上,打开浏览器,访问http://负载均衡服务的外网ip地址 -> 提示:你可以尝试增加epoch,也可以尝试更换优化器,其他优化器有Adagrad, RMSprop, Adam等 - +## `**************作业5:请将kubectl get services输出信息截图、并将浏览器地址栏和网页内容一起截图,并插入实验报告***************` -#### 6)保存训练代码,并push到水杉码园中。 +#### 4)删除service,删除所有pod,最后在网页上删除集群。 ``` -git add . -git commit -m "commit source code and model" -git push origin master +kubectl delete service webapp +kubectl delete deployment webapp ``` + + +#### 5)还有一个答案没有揭晓:我也不知道,留给大家自己探索 :stuck_out_tongue_winking_eye: \ No newline at end of file