#13 期末大作业

Offen
vor 2 Jahren von 吴贤佑 geöffnet · 31 Kommentare
吴贤佑 hat vor 2 Jahren kommentiert

题目:按以下要求完成大作业

  1. 需使用数据集
    1. 可自行寻找或使用教材中数据集
    2. 如鸢尾花(见腾讯工蜂平台)
    3. 或全球著名过山车的分项指标(见腾讯工蜂平台)
      1. 该数据集给了每个过山车的多项指标,如构造(Construction),类型(Type),高度(Height), 速度(Speed),长度(Length),倒置(Inversions),落差(Drop),时长(Duration),超重力(G Force),垂直角度(Vertical Angle)等。
      2. 有些不适合程序处理的指标,如非数值型的构造和类型,可被剔除出研究范围。
      3. 有些指标不是独立的,由其他指标决定,因此是冗余的,也可剔除,如超重力(G Force)指标。
      4. 数据中存在大量缺失,可先进行数据的清洗。如为保持数据的完整性,可用适当的值对缺省值进行填充。
  2. 应包含一定数量的有效代码
  3. 技术要求:
    1. 应综合运用numpy、pandas、matplotlib、sklearn库
    2. 包括数据集读取
    3. 包括数据清洗
    4. 包括数据分析与统计
    5. 包括机器学习
    6. 包括可视化绘图
    7. 包括结果保存(文件格式不限)

组队协作完成(不超过3人)

  1. 填写组队信息:https://docs.qq.com/sheet/DYW5HYXZTdm1XY3l1

重要时间节点

  1. 通知学生时间:4.18
  2. 组队截止时间:4.25
  3. 完成提交时间(含答辩申请):6.2
  4. 答辩时间:(评优必须答辩)
    6.14 14:50-17:00
    6.16 14:50-17:00
    每组10分钟介绍(含作品介绍、作品演示、分工介绍)+5分钟提问

提交要求

  1. py源码文件(含注释与主要功能说明)、数据集等素材
  2. 实验报告(模板见腾讯工蜂平台)
  3. 提交至相应team仓库的teamwork01分支

水杉码园上的本次作业要求:https://gitea.shuishan.net.cn/AI-B.Liuyao.2022Spring.XinYuan/AllStuRead/issues/13
腾讯工蜂上的本次作业要求:https://git.code.tencent.com/AI-B.Liuyao.2022Spring.XinYuan/midterm/issues/1
腾讯工蜂上的本次课程材料(课件及素材等):https://git.code.tencent.com/AI-B.Liuyao.2022Spring.XinYuan/midterm/tree/master

### 题目:按以下要求完成大作业 1. 需使用数据集 1. 可自行寻找或使用教材中数据集 2. 如鸢尾花(见腾讯工蜂平台) 3. 或全球著名过山车的分项指标(见腾讯工蜂平台) 1. 该数据集给了每个过山车的多项指标,如构造(Construction),类型(Type),高度(Height), 速度(Speed),长度(Length),倒置(Inversions),落差(Drop),时长(Duration),超重力(G Force),垂直角度(Vertical Angle)等。 2. 有些不适合程序处理的指标,如非数值型的构造和类型,可被剔除出研究范围。 3. 有些指标不是独立的,由其他指标决定,因此是冗余的,也可剔除,如超重力(G Force)指标。 4. 数据中存在大量缺失,可先进行数据的清洗。如为保持数据的完整性,可用适当的值对缺省值进行填充。 2. 应包含一定数量的有效代码 3. 技术要求: 1. 应综合运用numpy、pandas、matplotlib、sklearn库 2. 包括数据集读取 3. 包括数据清洗 4. 包括数据分析与统计 5. 包括机器学习 6. 包括可视化绘图 7. 包括结果保存(文件格式不限) ### 组队协作完成(不超过3人) 1. 填写组队信息:https://docs.qq.com/sheet/DYW5HYXZTdm1XY3l1 ### 重要时间节点 1. 通知学生时间:4.18 2. 组队截止时间:4.25 3. 完成提交时间(含答辩申请):6.2 4. 答辩时间:(评优必须答辩) 6.14 14:50-17:00 6.16 14:50-17:00 每组10分钟介绍(含作品介绍、作品演示、分工介绍)+5分钟提问 ### 提交要求 1. py源码文件(含注释与主要功能说明)、数据集等素材 2. 实验报告(模板见腾讯工蜂平台) 3. 提交至相应team仓库的teamwork01分支 ----- 水杉码园上的本次作业要求:https://gitea.shuishan.net.cn/AI-B.Liuyao.2022Spring.XinYuan/AllStuRead/issues/13 腾讯工蜂上的本次作业要求:https://git.code.tencent.com/AI-B.Liuyao.2022Spring.XinYuan/midterm/issues/1 腾讯工蜂上的本次课程材料(课件及素材等):https://git.code.tencent.com/AI-B.Liuyao.2022Spring.XinYuan/midterm/tree/master
吴思辰 hat vor 2 Jahren kommentiert

关于数据集部分,可以使用自己的数据集吗,然后在交作业的时候一起上交?

关于数据集部分,可以使用自己的数据集吗,然后在交作业的时候一起上交?
吴贤佑 hat vor 2 Jahren kommentiert
Besitzer

关于数据集部分,可以使用自己的数据集吗,然后在交作业的时候一起上交?

可以

> 关于数据集部分,可以使用自己的数据集吗,然后在交作业的时候一起上交? 可以
刘垚 hat den Titel von 期中大作业 zu 期末大作业 vor 2 Jahren geändert
李芮婕 hat vor 2 Jahren kommentiert

老师好!请问若数据集完整,是一定要人为制造缺失值和重复值之后进行数据清洗,还是可以直接使用完整数据进行数据分析呀?

老师好!请问若数据集完整,是一定要人为制造缺失值和重复值之后进行数据清洗,还是可以直接使用完整数据进行数据分析呀?
刘垚 hat vor 2 Jahren kommentiert
Besitzer

老师好!请问若数据集完整,是一定要人为制造缺失值和重复值之后进行数据清洗,还是可以直接使用完整数据进行数据分析呀?

需要有数据清洗的过程。因此,如果数据集完整,需要人为制造缺失或重复。

> 老师好!请问若数据集完整,是一定要人为制造缺失值和重复值之后进行数据清洗,还是可以直接使用完整数据进行数据分析呀? 需要有数据清洗的过程。因此,如果数据集完整,需要人为制造缺失或重复。
陈柯宇 hat vor 2 Jahren kommentiert

老师好,请问最后的实验报告是每个人都要交还是一组交一份呢?因为看了一下需要写本人所负责的部分,这个内容是直接将两人的分工都写在一份里吗?

老师好,请问最后的实验报告是每个人都要交还是一组交一份呢?因为看了一下需要写本人所负责的部分,这个内容是直接将两人的分工都写在一份里吗?
庹芯 hat vor 2 Jahren kommentiert

请问实验报告的模板一定要用腾讯工蜂中的模板吗?
是的。

可以在信息齐全的情况下使用自己的模板吗?
不可以。

以及请问实验报告大概多少字合适?
没有硬性规定,需要能描述清楚。

报告中是否需要把每一部分的代码贴上?
一般不需要,可以把重点和难点代码贴上,并辅以说明。

请问实验报告的模板一定要用腾讯工蜂中的模板吗? 是的。 可以在信息齐全的情况下使用自己的模板吗? 不可以。 以及请问实验报告大概多少字合适? 没有硬性规定,需要能描述清楚。 报告中是否需要把每一部分的代码贴上? 一般不需要,可以把重点和难点代码贴上,并辅以说明。
庹芯 hat vor 2 Jahren kommentiert

请问可以用到超出课本所学知识的函数吗?

请问可以用到超出课本所学知识的函数吗?
刘垚 hat vor 2 Jahren kommentiert
Besitzer

老师好,请问最后的实验报告是每个人都要交还是一组交一份呢?因为看了一下需要写本人所负责的部分,这个内容是直接将两人的分工都写在一份里吗?

每人一份,个人分工部分不可以相同,其余部分可以相同。

> 老师好,请问最后的实验报告是每个人都要交还是一组交一份呢?因为看了一下需要写本人所负责的部分,这个内容是直接将两人的分工都写在一份里吗? 每人一份,个人分工部分不可以相同,其余部分可以相同。
刘垚 hat vor 2 Jahren kommentiert
Besitzer

请问可以用到超出课本所学知识的函数吗?

可以的。

> 请问可以用到超出课本所学知识的函数吗? 可以的。
庹芯 hat vor 2 Jahren kommentiert

请问结果保存是要单独写成一个文件吗?(因为要求中说“文件格式不限”)

请问结果保存是要单独写成一个文件吗?(因为要求中说“文件格式不限”)
刘垚 hat vor 2 Jahren kommentiert
Besitzer

请问结果保存是要单独写成一个文件吗?(因为要求中说“文件格式不限”)

可以,数据文件或图片皆可,多个文件也可以。

> 请问结果保存是要单独写成一个文件吗?(因为要求中说“文件格式不限”) 可以,数据文件或图片皆可,多个文件也可以。

请问答辩是要所有组员一起还是只派出一位组员?

请问答辩是要所有组员一起还是只派出一位组员?
刘垚 hat vor 2 Jahren kommentiert
Besitzer

请问答辩是要所有组员一起还是只派出一位组员?

组员一起介绍作品,并介绍各自分工。

> 请问答辩是要所有组员一起还是只派出一位组员? 组员一起介绍作品,并介绍各自分工。
吴思辰 hat vor 2 Jahren kommentiert

问点奇怪的,爬虫不算是机器学习但是可不可以勉强算作人工智能(因为机器学习没活了只能整点乱七八糟的了QAQ)

问点奇怪的,爬虫不算是机器学习但是可不可以勉强算作人工智能(因为机器学习没活了只能整点乱七八糟的了QAQ)
刘垚 hat vor 2 Jahren kommentiert
Besitzer

问点奇怪的,爬虫不算是机器学习但是可不可以勉强算作人工智能(因为机器学习没活了只能整点乱七八糟的了QAQ)

爬虫可以看作人工智能的数据获取过程。但爬虫请注意法律风险。

> 问点奇怪的,爬虫不算是机器学习但是可不可以勉强算作人工智能(因为机器学习没活了只能整点乱七八糟的了QAQ) 爬虫可以看作人工智能的数据获取过程。但爬虫请注意法律风险。
吴思辰 hat vor 2 Jahren kommentiert

问点奇怪的,爬虫不算是机器学习但是可不可以勉强算作人工智能(因为机器学习没活了只能整点乱七八糟的了QAQ)

爬虫可以看作人工智能的数据获取过程。但爬虫请注意法律风险。

好嘞老师,我是最遵纪守法科学上网的好公民啦~顺便问下,我们下周上课吗?我已经开始想您啦!

> > 问点奇怪的,爬虫不算是机器学习但是可不可以勉强算作人工智能(因为机器学习没活了只能整点乱七八糟的了QAQ) > > 爬虫可以看作人工智能的数据获取过程。但爬虫请注意法律风险。 好嘞老师,我是最遵纪守法科学上网的好公民啦~顺便问下,我们下周上课吗?我已经开始想您啦!
刘垚 hat vor 2 Jahren kommentiert
Besitzer

问点奇怪的,爬虫不算是机器学习但是可不可以勉强算作人工智能(因为机器学习没活了只能整点乱七八糟的了QAQ)

爬虫可以看作人工智能的数据获取过程。但爬虫请注意法律风险。

好嘞老师,我是最遵纪守法科学上网的好公民啦~顺便问下,我们下周上课吗?我已经开始想您啦!

哈哈,有些调整:

  1. 通过水杉学堂,学习课程视频Lesson11聚类算法(见水杉学堂中的本课程);
  2. 在水杉码园的14周作业话题(下周一课前布置)中,下载”第5章.ppt“,学习5.4聚类的理论部分;
  3. 在水杉码园的14周作业话题(下周一课前布置)中,下载”5.4.3.ipynb“,学习5.4聚类的范例实验;
  4. 按水杉码园的14周作业话题(下周一课前布置)完成作业;
  5. 理论课时间,方便的同学进入#腾讯会议:762-7397-2653,答疑;
  6. 上机课时间,方便的同学进入#腾讯会议:762-7397-2653,答疑。
> > > 问点奇怪的,爬虫不算是机器学习但是可不可以勉强算作人工智能(因为机器学习没活了只能整点乱七八糟的了QAQ) > > > > 爬虫可以看作人工智能的数据获取过程。但爬虫请注意法律风险。 > > 好嘞老师,我是最遵纪守法科学上网的好公民啦~顺便问下,我们下周上课吗?我已经开始想您啦! 哈哈,有些调整: 1. 通过水杉学堂,学习课程视频Lesson11聚类算法(见水杉学堂中的本课程); 2. 在水杉码园的14周作业话题(下周一课前布置)中,下载”第5章.ppt“,学习5.4聚类的理论部分; 3. 在水杉码园的14周作业话题(下周一课前布置)中,下载”5.4.3.ipynb“,学习5.4聚类的范例实验; 4. 按水杉码园的14周作业话题(下周一课前布置)完成作业; 5. 理论课时间,方便的同学进入#腾讯会议:762-7397-2653,答疑; 6. 上机课时间,方便的同学进入#腾讯会议:762-7397-2653,答疑。
鲁迪 hat vor 2 Jahren kommentiert

请问第15课降维的学习素材比如可不可以提前发一下呢?

请问第15课降维的学习素材比如可不可以提前发一下呢?
刘垚 hat vor 2 Jahren kommentiert
Besitzer

请问第15课降维的学习素材比如可不可以提前发一下呢?

降维这部分的jupyter文件如下,课堂上不打算教学了。

> 请问第15课降维的学习素材比如可不可以提前发一下呢? 降维这部分的jupyter文件如下,课堂上不打算教学了。
鲁迪 hat vor 2 Jahren kommentiert

请问第15课降维的学习素材比如可不可以提前发一下呢?

降维这部分的jupyter文件如下,课堂上不打算教学了。

好的谢谢老师!

> > 请问第15课降维的学习素材比如可不可以提前发一下呢? > > 降维这部分的jupyter文件如下,课堂上不打算教学了。 好的谢谢老师!
史文迪 hat vor 2 Jahren kommentiert

请问有人知道像“CT
(41.575155, -72.738288)”是什么意思吗?是城市位置坐标吗?

请问有人知道像“CT (41.575155, -72.738288)”是什么意思吗?是城市位置坐标吗?
6.8 KiB
李晓恩 hat vor 2 Jahren kommentiert

想问问在windows能运行,但在mac上运行不了是怎么回事(已改路径)

想问问在windows能运行,但在mac上运行不了是怎么回事(已改路径)
王伶方 hat vor 2 Jahren kommentiert

多元线性回归做出来的决定系数怎么做都过于小,会不会是因为样本量太大了。。。?做不出来结果

多元线性回归做出来的决定系数怎么做都过于小,会不会是因为样本量太大了。。。?做不出来结果
张鑫元 hat vor 2 Jahren kommentiert

想问问答辩在哪里报名啊

想问问答辩在哪里报名啊
吴贤佑 hat vor 2 Jahren kommentiert
Besitzer

想问问答辩在哪里报名啊

在组队表格中填写

> 想问问答辩在哪里报名啊 在组队表格中填写
吴贤佑 hat vor 2 Jahren kommentiert
Besitzer

多元线性回归做出来的决定系数怎么做都过于小,会不会是因为样本量太大了。。。?做不出来结果

可能是数据本身没有线性关系

> 多元线性回归做出来的决定系数怎么做都过于小,会不会是因为样本量太大了。。。?做不出来结果 > 可能是数据本身没有线性关系
庹芯 hat vor 2 Jahren kommentiert

请问可以不上传任何py文件,而把代码和结果都用ipynb的格式呈现?

请问可以不上传任何py文件,而把代码和结果都用ipynb的格式呈现?
袁涵冰 hat vor 2 Jahren kommentiert

请问实验报告的命名有要求吗?

请问实验报告的命名有要求吗?
王钰柯 hat vor 2 Jahren kommentiert

想问问为什么会出现这个报错。是数据实际上不适合回归吗?

想问问为什么会出现这个报错。是数据实际上不适合回归吗?
吴贤佑 hat vor 2 Jahren kommentiert
Besitzer

想问问为什么会出现这个报错。是数据实际上不适合回归吗?

参考sy5-3-3把特征数据组织成列向量形式

> 想问问为什么会出现这个报错。是数据实际上不适合回归吗? 参考sy5-3-3把特征数据组织成列向量形式
王伶方 hat vor 2 Jahren kommentiert

image 为什么会这个样子???

![image]() 为什么会这个样子???
209 KiB
Anmelden, um an der Diskussion teilzunehmen.
Kein Label
Kein Meilenstein
Niemand zuständig
Nachrichten
Fällig am

Kein Fälligkeitsdatum gesetzt.

Abhängigkeiten

Dieses Issue hat momentan keine Abhängigkeiten.

Laden…
Hier gibt es bis jetzt noch keinen Inhalt.