5372 2

[数据挖掘理论与案例] 数据挖掘中常用的数据清洗方法有哪些? [推广有奖]

  • 0关注
  • 66粉丝

教授

55%

还不是VIP/贵宾

-

威望
1
论坛币
13016 个
通用积分
64.2192
学术水平
26 点
热心指数
25 点
信用等级
15 点
经验
8663 点
帖子
617
精华
0
在线时间
170 小时
注册时间
2016-12-6
最后登录
2017-4-8

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
数据挖掘中常用的数据清洗方法有哪些?


输入数据后需要对数据进行预处理,只有处理得当的数据才能进到数据挖掘的步骤。而处理数据包括对数据数量和质量的处理。我按照少—多—乱来整理。

1 对缺失的数据有添补或删除相关行列方法,具体步骤自己判断(如果数据量本来就很少还坚持删除不就作死了是吧)
★添补:常用拉格朗日插值或牛顿插值法,也蛮好理解,属于数理基础知识。(pandas库里自带拉格朗日插值函数,而且这个好处是还可以在插值前对数据进行异常值检测,如果异常那么该数据就也被视为需要进行插值的对象)
★删除:这个也好理解,就是对结果分析没有直接影响的数据删删删爱少少不去管。

2 异常值
这个是否剔除需要视情况而定
★像问题1中视为缺失值重新插值
★删除含有异常值的记录(可能会造成样本量不足,改变原有分布)
★平均值修正(用前后两个观测值平均值)
综上,还是方案一靠谱。
人生苦短,学好python

3 数据量太多,有三种方法:集成,规约,变换
(1)数据是分散的时,这个就是指要从多个分散的数据仓库中抽取数据,此时可能会造成冗余的情况。此时要做的是【数据集成】。
数据集成有两方面内容:
①冗余属性识别②矛盾实体识别
属性:
对于冗余属性个人理解是具有相关性的属性分别从不同的仓库中被调出整合到新表中,而新表中由于属性太多造成冗余,这时可以靠相关性分析来分析属性a和属性b的相关系数,来度量一个属性在多大程度上蕴含另一个属性。(这个用python的pandas库里corr()函数也可以实现),检测出了再将其删除。
实体:(这个是要靠自己甄别源表,所以源仓库里的实体含义要清楚)
a,同名异义——改名字
b,异名同义——删一个
c,单位不统一—换

(2)数据规约
又包括两方面
属性规约和数量规约
①属性规约:就是减少属性个数或合并旧属性成一个新属性,可以特征子集选择(删除不需要作挖掘的属性),主成分分析(通过对方差的决定性大小分析并降维),决策树归纳,向前/向后删除。
具体的如果不了解可以找个实例试一下。

②数量规约:通过选择替代的,较小的数据来减少数据量,包括有参数和无参数。
有参数:建模,并且只需存放模型的参数,例如一些回归模型,用参数来评估数据。
无参数:需要存放实际数据,用图表存放并显示数据,例如用直方图时可把步长设置一定的区间,来衡量区间内的频数,也起到了规约的目的。还有一些聚类(用簇来替换实际数据)。还有抽样(聚类抽样,分层抽样)

当数据太乱时就要进行规范化处理,进行数据变换。
①简单函数变换。比如将非正态的变换为正态分布的,将非平稳序列转换为平稳序列,有时数据的区间十分大时取其对数也能起到压缩的作用。
②规范化。消除指标之间由于量纲等引起的差异。分为最小—最大规范化(线性变换,将其映射到0和1区间内),零—均值规范化(使数据均值为0,标准差为1),小数定标规范化(移动小数位数,将数值映射到-1到1区间)
三种方法都有转化公式。
③ 连续属性离散化。(当要应用的数据挖掘算法要求数据是分类属性形式的时候),包括两个步骤:确定分类数,将连续的属性映射到这些分好类的类别。
方法:等宽(类似于直方图的思想,取特定步长),等频(按相同频数进行划分),聚类
④属性构造。(a,属性添加:比如有质量和体积,可以用公式构造出密度这个属性值;
b,二元化;c,概念分层)


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据挖掘 python pandas 数据挖掘算法 panda 数据挖掘 数据清洗 数据清洗方法 如何进行数据清洗 数据清洗异常状况处理

沙发
coplandwang 发表于 2017-2-4 10:46:33 |只看作者 |坛友微信交流群
谢谢楼主分享经验

使用道具

藤椅
晴空kara 发表于 2017-2-22 16:47:22 |只看作者 |坛友微信交流群
感谢楼主分享

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-8 04:17