请选择 进入手机版 | 继续访问电脑版
楼主: 时光永痕
968 0

[数据挖掘新闻] Python中的完整机器学习项目:第一部分 [推广有奖]

  • 0关注
  • 13粉丝

学术权威

11%

还不是VIP/贵宾

-

威望
0
论坛币
21 个
通用积分
26.3205
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
31034 点
帖子
2719
精华
0
在线时间
257 小时
注册时间
2020-7-21
最后登录
2022-10-21

时光永痕 学生认证  发表于 2020-10-10 18:45:50 |显示全部楼层

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
Python中的完整机器学习项目:第一部分
阅读一本数据科学书籍或学习一门课程,感觉就像是拥有了各个部分,但并不十分了解如何将它们组合在一起。迈出下一步并解决完整的机器学习问题可能很艰巨,但是保留并完成第一个项目将使您有信心解决任何数据科学问题。本系列文章将通过一个完整的机器学习解决方案和一个真实的数据集,让您了解所有部分如何组合在一起。
我们将逐步遵循一般的机器学习工作流程:
数据清理和格式化
探索性数据分析
特征工程和选择
在性能指标上比较几种机器学习模型
在最佳模型上执行超参数调整
评估测试集上的最佳模型
解释模型结果
得出结论并记录工作
在此过程中,我们将看到每个步骤如何流入下一个步骤以及如何在Python中专门实现每个部分。完整的项目可在GitHub上找到,第一个笔记本在这里。第一篇文章将介绍步骤1-3,其余内容将在后续文章中讨论。
(请注意,这个问题最初是作为我在启动时的工作分配给我的。在完成工作之后,我被提供了工作,但是公司的CTO辞职了,他们没有。无法招募任何新员工。我想这就是创业现场的情况!)
问题定义
获得编码之前的第一步是了解我们要解决的问题和可用数据。在此项目中,我们将使用纽约市公开提供的建筑能耗数据。
目的是使用能源数据来建立一个模型,该模型可以预测建筑物的能源之星得分,并解释结果以找出影响得分的因素。
数据包括能源之星评分,这使它成为有监督的回归机器学习任务:
监督下:我们可以访问功能和目标,并且我们的目标是训练一个可以学习两者之间映射关系的模型
回归:能源之星得分是一个连续变量
我们希望开发一个既准确的模型,也可以预测接近真实值的能源之星评分,并且可以解释,我们可以理解模型的预测。一旦我们了解了目标,就可以在研究数据和构建模型时使用它来指导我们的决策。
数据清理
与大多数数据科学课程的想法相反,并不是每个数据集都是一组完美的观察结果,没有缺失值或异常(查看mtcar和虹膜数据集)。现实世界中的数据很乱,这意味着我们甚至需要开始分析之前就需要将其清理并整理为可接受的格式。数据清理是大多数实际数据科学问题中不容忽视的但必不可少的部分。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python 机器学习 探索性数据分析 GitHub 第一个笔记

您需要登录后才可以回帖 登录 | 我要注册

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2022-12-7 11:43