楼主: CDA网校
655 0

[数据] 如何做好数据预处理(二)——CDA人工智能学院 [推广有奖]

管理员

大师

63%

还不是VIP/贵宾

-

威望
3
论坛币
32093 个
通用积分
3062.4015
学术水平
260 点
热心指数
268 点
信用等级
235 点
经验
195117 点
帖子
5130
精华
19
在线时间
3701 小时
注册时间
2019-9-13
最后登录
2024-5-10

初级热心勋章

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
CDA人工智能学院致力于以优质的人工智能在线教育资源助力学员的DT职业梦想!课程内容涵盖数据分析、机器学习、深度学习、人工智能、TensorFlow、PyTorch、知识图谱等众多核心技术及行业案例,让每一个学员都可以在线灵活学习,快速掌握AI时代的前沿技术。PS:私信我即可获取《银牌会员》1个月免费试听机会

在上一篇文章中我们提到的数据预处理的数据清洗数据清洗就是对于肮脏数据的清除,而肮脏数据主要有异常值和缺失值,我们在进行数据预处理的时候不但要注意数据的清洗,还需要注意数据的集成、数据变换、数据规范的内容,只有这样,我们才能够为下一步工作做好铺垫。


首先说说数据集成吧,所谓数据集成就是将多个数据源合并放到一个数据存储中,当然如果所分析的数据原本就在一个数据存储里就不需要数据的集成了。一般来说,数据集成的实现是将两个数据框以关键字为依据,在进行数据集成时可能会出现几种情况,分别是一个数据代表着两个不同的意思,两个不同的数据代表一个意思,数据的重复出现,这三个数据使得数据分析工作变得十分繁琐,从而影响数据分析的准确性,这就需要我们对于数据进行集成的工作。


接着给大家说说数据的变换,数据的变换就是把数据转化成适当的形式,来满足软件或分析理论的需要。一般我们可以通过简单的函数变换进行数据变换,什么是简单的函数变换呢?简单函数变换用来将不具有正态分布的数据变成有正态分布的数据。


最后给大家说说数据的规范化,数据的规范化就是剔除掉变量在某种标准的影响,这就需要我们对于数据的最小最大规范化。什么是最小最大规范化呢?也叫离差标准化,对数据进行线性变换,将其范围变成[0,1]。当然我们也可以使用零均值规范化,零均值规范化也叫标准差标准化,处理后的数据均值等于0,标准差为1。如果这两总方法不合适的话,我们也可以使用小数定标规范化,就是移动属性值的小数位数,将属性值映射到区间内即可。通过数据的规范化,我们可以降低降低无效错误的数据对建模的影响、缩减时间、降低存储数据的空间。这样就能够减少数据量,同时也能够方便参数线性回归和多元回归。并且通过对数据属性的规范发现最小的属性以及确定属性概率分布。


综上所述,对于数据分析中的数据预处理的具体内容就是小编为大家提到的数据预处理的具体步骤,分别包括数据清洗、数据的集成、数据变换、数据的规范,希望这篇文章能够给大家带来帮助,最后感谢大家的阅读。

115940p38xxaeu3qe8qwxe.webp (1).jpg

关注“CDA人工智能学院”,回复“录播”获取更多人工智能精选直播视频!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据预处理 人工智能 CDA 预处理 Tensor

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-10 19:56