#13 期末大作业

開啟中
吴贤佑2 年之前建立 · 31 條評論

题目:按以下要求完成大作业

  1. 需使用数据集
    1. 可自行寻找或使用教材中数据集
    2. 如鸢尾花(见腾讯工蜂平台)
    3. 或全球著名过山车的分项指标(见腾讯工蜂平台)
      1. 该数据集给了每个过山车的多项指标,如构造(Construction),类型(Type),高度(Height), 速度(Speed),长度(Length),倒置(Inversions),落差(Drop),时长(Duration),超重力(G Force),垂直角度(Vertical Angle)等。
      2. 有些不适合程序处理的指标,如非数值型的构造和类型,可被剔除出研究范围。
      3. 有些指标不是独立的,由其他指标决定,因此是冗余的,也可剔除,如超重力(G Force)指标。
      4. 数据中存在大量缺失,可先进行数据的清洗。如为保持数据的完整性,可用适当的值对缺省值进行填充。
  2. 应包含一定数量的有效代码
  3. 技术要求:
    1. 应综合运用numpy、pandas、matplotlib、sklearn库
    2. 包括数据集读取
    3. 包括数据清洗
    4. 包括数据分析与统计
    5. 包括机器学习
    6. 包括可视化绘图
    7. 包括结果保存(文件格式不限)

组队协作完成(不超过3人)

  1. 填写组队信息:https://docs.qq.com/sheet/DYW5HYXZTdm1XY3l1

重要时间节点

  1. 通知学生时间:4.18
  2. 组队截止时间:4.25
  3. 完成提交时间(含答辩申请):6.2
  4. 答辩时间:(评优必须答辩)
    6.14 14:50-17:00
    6.16 14:50-17:00
    每组10分钟介绍(含作品介绍、作品演示、分工介绍)+5分钟提问

提交要求

  1. py源码文件(含注释与主要功能说明)、数据集等素材
  2. 实验报告(模板见腾讯工蜂平台)
  3. 提交至相应team仓库的teamwork01分支

水杉码园上的本次作业要求:https://gitea.shuishan.net.cn/AI-B.Liuyao.2022Spring.XinYuan/AllStuRead/issues/13
腾讯工蜂上的本次作业要求:https://git.code.tencent.com/AI-B.Liuyao.2022Spring.XinYuan/midterm/issues/1
腾讯工蜂上的本次课程材料(课件及素材等):https://git.code.tencent.com/AI-B.Liuyao.2022Spring.XinYuan/midterm/tree/master

### 题目:按以下要求完成大作业 1. 需使用数据集 1. 可自行寻找或使用教材中数据集 2. 如鸢尾花(见腾讯工蜂平台) 3. 或全球著名过山车的分项指标(见腾讯工蜂平台) 1. 该数据集给了每个过山车的多项指标,如构造(Construction),类型(Type),高度(Height), 速度(Speed),长度(Length),倒置(Inversions),落差(Drop),时长(Duration),超重力(G Force),垂直角度(Vertical Angle)等。 2. 有些不适合程序处理的指标,如非数值型的构造和类型,可被剔除出研究范围。 3. 有些指标不是独立的,由其他指标决定,因此是冗余的,也可剔除,如超重力(G Force)指标。 4. 数据中存在大量缺失,可先进行数据的清洗。如为保持数据的完整性,可用适当的值对缺省值进行填充。 2. 应包含一定数量的有效代码 3. 技术要求: 1. 应综合运用numpy、pandas、matplotlib、sklearn库 2. 包括数据集读取 3. 包括数据清洗 4. 包括数据分析与统计 5. 包括机器学习 6. 包括可视化绘图 7. 包括结果保存(文件格式不限) ### 组队协作完成(不超过3人) 1. 填写组队信息:https://docs.qq.com/sheet/DYW5HYXZTdm1XY3l1 ### 重要时间节点 1. 通知学生时间:4.18 2. 组队截止时间:4.25 3. 完成提交时间(含答辩申请):6.2 4. 答辩时间:(评优必须答辩) 6.14 14:50-17:00 6.16 14:50-17:00 每组10分钟介绍(含作品介绍、作品演示、分工介绍)+5分钟提问 ### 提交要求 1. py源码文件(含注释与主要功能说明)、数据集等素材 2. 实验报告(模板见腾讯工蜂平台) 3. 提交至相应team仓库的teamwork01分支 ----- 水杉码园上的本次作业要求:https://gitea.shuishan.net.cn/AI-B.Liuyao.2022Spring.XinYuan/AllStuRead/issues/13 腾讯工蜂上的本次作业要求:https://git.code.tencent.com/AI-B.Liuyao.2022Spring.XinYuan/midterm/issues/1 腾讯工蜂上的本次课程材料(课件及素材等):https://git.code.tencent.com/AI-B.Liuyao.2022Spring.XinYuan/midterm/tree/master

关于数据集部分,可以使用自己的数据集吗,然后在交作业的时候一起上交?

关于数据集部分,可以使用自己的数据集吗,然后在交作业的时候一起上交?
吴贤佑 評論 2 年之前
所有者

关于数据集部分,可以使用自己的数据集吗,然后在交作业的时候一起上交?

可以

> 关于数据集部分,可以使用自己的数据集吗,然后在交作业的时候一起上交? 可以
刘垚 changed title from 期中大作业 to 期末大作业 2 年之前

老师好!请问若数据集完整,是一定要人为制造缺失值和重复值之后进行数据清洗,还是可以直接使用完整数据进行数据分析呀?

老师好!请问若数据集完整,是一定要人为制造缺失值和重复值之后进行数据清洗,还是可以直接使用完整数据进行数据分析呀?
刘垚 評論 2 年之前
所有者

老师好!请问若数据集完整,是一定要人为制造缺失值和重复值之后进行数据清洗,还是可以直接使用完整数据进行数据分析呀?

需要有数据清洗的过程。因此,如果数据集完整,需要人为制造缺失或重复。

> 老师好!请问若数据集完整,是一定要人为制造缺失值和重复值之后进行数据清洗,还是可以直接使用完整数据进行数据分析呀? 需要有数据清洗的过程。因此,如果数据集完整,需要人为制造缺失或重复。

老师好,请问最后的实验报告是每个人都要交还是一组交一份呢?因为看了一下需要写本人所负责的部分,这个内容是直接将两人的分工都写在一份里吗?

老师好,请问最后的实验报告是每个人都要交还是一组交一份呢?因为看了一下需要写本人所负责的部分,这个内容是直接将两人的分工都写在一份里吗?

请问实验报告的模板一定要用腾讯工蜂中的模板吗?
是的。

可以在信息齐全的情况下使用自己的模板吗?
不可以。

以及请问实验报告大概多少字合适?
没有硬性规定,需要能描述清楚。

报告中是否需要把每一部分的代码贴上?
一般不需要,可以把重点和难点代码贴上,并辅以说明。

请问实验报告的模板一定要用腾讯工蜂中的模板吗? 是的。 可以在信息齐全的情况下使用自己的模板吗? 不可以。 以及请问实验报告大概多少字合适? 没有硬性规定,需要能描述清楚。 报告中是否需要把每一部分的代码贴上? 一般不需要,可以把重点和难点代码贴上,并辅以说明。

请问可以用到超出课本所学知识的函数吗?

请问可以用到超出课本所学知识的函数吗?
刘垚 評論 2 年之前
所有者

老师好,请问最后的实验报告是每个人都要交还是一组交一份呢?因为看了一下需要写本人所负责的部分,这个内容是直接将两人的分工都写在一份里吗?

每人一份,个人分工部分不可以相同,其余部分可以相同。

> 老师好,请问最后的实验报告是每个人都要交还是一组交一份呢?因为看了一下需要写本人所负责的部分,这个内容是直接将两人的分工都写在一份里吗? 每人一份,个人分工部分不可以相同,其余部分可以相同。
刘垚 評論 2 年之前
所有者

请问可以用到超出课本所学知识的函数吗?

可以的。

> 请问可以用到超出课本所学知识的函数吗? 可以的。

请问结果保存是要单独写成一个文件吗?(因为要求中说“文件格式不限”)

请问结果保存是要单独写成一个文件吗?(因为要求中说“文件格式不限”)
刘垚 評論 2 年之前
所有者

请问结果保存是要单独写成一个文件吗?(因为要求中说“文件格式不限”)

可以,数据文件或图片皆可,多个文件也可以。

> 请问结果保存是要单独写成一个文件吗?(因为要求中说“文件格式不限”) 可以,数据文件或图片皆可,多个文件也可以。

请问答辩是要所有组员一起还是只派出一位组员?

请问答辩是要所有组员一起还是只派出一位组员?
刘垚 評論 2 年之前
所有者

请问答辩是要所有组员一起还是只派出一位组员?

组员一起介绍作品,并介绍各自分工。

> 请问答辩是要所有组员一起还是只派出一位组员? 组员一起介绍作品,并介绍各自分工。

问点奇怪的,爬虫不算是机器学习但是可不可以勉强算作人工智能(因为机器学习没活了只能整点乱七八糟的了QAQ)

问点奇怪的,爬虫不算是机器学习但是可不可以勉强算作人工智能(因为机器学习没活了只能整点乱七八糟的了QAQ)
刘垚 評論 2 年之前
所有者

问点奇怪的,爬虫不算是机器学习但是可不可以勉强算作人工智能(因为机器学习没活了只能整点乱七八糟的了QAQ)

爬虫可以看作人工智能的数据获取过程。但爬虫请注意法律风险。

> 问点奇怪的,爬虫不算是机器学习但是可不可以勉强算作人工智能(因为机器学习没活了只能整点乱七八糟的了QAQ) 爬虫可以看作人工智能的数据获取过程。但爬虫请注意法律风险。

问点奇怪的,爬虫不算是机器学习但是可不可以勉强算作人工智能(因为机器学习没活了只能整点乱七八糟的了QAQ)

爬虫可以看作人工智能的数据获取过程。但爬虫请注意法律风险。

好嘞老师,我是最遵纪守法科学上网的好公民啦~顺便问下,我们下周上课吗?我已经开始想您啦!

> > 问点奇怪的,爬虫不算是机器学习但是可不可以勉强算作人工智能(因为机器学习没活了只能整点乱七八糟的了QAQ) > > 爬虫可以看作人工智能的数据获取过程。但爬虫请注意法律风险。 好嘞老师,我是最遵纪守法科学上网的好公民啦~顺便问下,我们下周上课吗?我已经开始想您啦!
刘垚 評論 2 年之前
所有者

问点奇怪的,爬虫不算是机器学习但是可不可以勉强算作人工智能(因为机器学习没活了只能整点乱七八糟的了QAQ)

爬虫可以看作人工智能的数据获取过程。但爬虫请注意法律风险。

好嘞老师,我是最遵纪守法科学上网的好公民啦~顺便问下,我们下周上课吗?我已经开始想您啦!

哈哈,有些调整:

  1. 通过水杉学堂,学习课程视频Lesson11聚类算法(见水杉学堂中的本课程);
  2. 在水杉码园的14周作业话题(下周一课前布置)中,下载”第5章.ppt“,学习5.4聚类的理论部分;
  3. 在水杉码园的14周作业话题(下周一课前布置)中,下载”5.4.3.ipynb“,学习5.4聚类的范例实验;
  4. 按水杉码园的14周作业话题(下周一课前布置)完成作业;
  5. 理论课时间,方便的同学进入#腾讯会议:762-7397-2653,答疑;
  6. 上机课时间,方便的同学进入#腾讯会议:762-7397-2653,答疑。
> > > 问点奇怪的,爬虫不算是机器学习但是可不可以勉强算作人工智能(因为机器学习没活了只能整点乱七八糟的了QAQ) > > > > 爬虫可以看作人工智能的数据获取过程。但爬虫请注意法律风险。 > > 好嘞老师,我是最遵纪守法科学上网的好公民啦~顺便问下,我们下周上课吗?我已经开始想您啦! 哈哈,有些调整: 1. 通过水杉学堂,学习课程视频Lesson11聚类算法(见水杉学堂中的本课程); 2. 在水杉码园的14周作业话题(下周一课前布置)中,下载”第5章.ppt“,学习5.4聚类的理论部分; 3. 在水杉码园的14周作业话题(下周一课前布置)中,下载”5.4.3.ipynb“,学习5.4聚类的范例实验; 4. 按水杉码园的14周作业话题(下周一课前布置)完成作业; 5. 理论课时间,方便的同学进入#腾讯会议:762-7397-2653,答疑; 6. 上机课时间,方便的同学进入#腾讯会议:762-7397-2653,答疑。

请问第15课降维的学习素材比如可不可以提前发一下呢?

请问第15课降维的学习素材比如可不可以提前发一下呢?
刘垚 評論 2 年之前
所有者

请问第15课降维的学习素材比如可不可以提前发一下呢?

降维这部分的jupyter文件如下,课堂上不打算教学了。

> 请问第15课降维的学习素材比如可不可以提前发一下呢? 降维这部分的jupyter文件如下,课堂上不打算教学了。

请问第15课降维的学习素材比如可不可以提前发一下呢?

降维这部分的jupyter文件如下,课堂上不打算教学了。

好的谢谢老师!

> > 请问第15课降维的学习素材比如可不可以提前发一下呢? > > 降维这部分的jupyter文件如下,课堂上不打算教学了。 好的谢谢老师!

请问有人知道像“CT
(41.575155, -72.738288)”是什么意思吗?是城市位置坐标吗?

请问有人知道像“CT (41.575155, -72.738288)”是什么意思吗?是城市位置坐标吗?
6.8 KiB

想问问在windows能运行,但在mac上运行不了是怎么回事(已改路径)

想问问在windows能运行,但在mac上运行不了是怎么回事(已改路径)

多元线性回归做出来的决定系数怎么做都过于小,会不会是因为样本量太大了。。。?做不出来结果

多元线性回归做出来的决定系数怎么做都过于小,会不会是因为样本量太大了。。。?做不出来结果

想问问答辩在哪里报名啊

想问问答辩在哪里报名啊
吴贤佑 評論 2 年之前
所有者

想问问答辩在哪里报名啊

在组队表格中填写

> 想问问答辩在哪里报名啊 在组队表格中填写
吴贤佑 評論 2 年之前
所有者

多元线性回归做出来的决定系数怎么做都过于小,会不会是因为样本量太大了。。。?做不出来结果

可能是数据本身没有线性关系

> 多元线性回归做出来的决定系数怎么做都过于小,会不会是因为样本量太大了。。。?做不出来结果 > 可能是数据本身没有线性关系

请问可以不上传任何py文件,而把代码和结果都用ipynb的格式呈现?

请问可以不上传任何py文件,而把代码和结果都用ipynb的格式呈现?

请问实验报告的命名有要求吗?

请问实验报告的命名有要求吗?

想问问为什么会出现这个报错。是数据实际上不适合回归吗?

想问问为什么会出现这个报错。是数据实际上不适合回归吗?
吴贤佑 評論 2 年之前
所有者

想问问为什么会出现这个报错。是数据实际上不适合回归吗?

参考sy5-3-3把特征数据组织成列向量形式

> 想问问为什么会出现这个报错。是数据实际上不适合回归吗? 参考sy5-3-3把特征数据组织成列向量形式

image 为什么会这个样子???

![image]() 为什么会这个样子???
209 KiB
登入 才能加入這對話。
未選擇標籤
未選擇里程碑
No Assignees
訊息
Due Date

No due date set.

Dependencies

This issue currently doesn't have any dependencies.

Loading…
尚未有任何內容