楼主: luorongjin
7157 6

[数据挖掘理论与案例] 数据挖掘之数据预处理 [推广有奖]

  • 1关注
  • 6粉丝

已卖:651份资源

副教授

6%

还不是VIP/贵宾

-

威望
0
论坛币
7111 个
通用积分
12.2590
学术水平
7 点
热心指数
19 点
信用等级
5 点
经验
912 点
帖子
301
精华
0
在线时间
941 小时
注册时间
2010-4-25
最后登录
2024-12-27

楼主
luorongjin 发表于 2011-2-25 11:22:31 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
对于数据分析而言,什么是核心?答案显而易见---数据。但是并不是所有的数据都是有用的,大多数数据是参差不齐的,概念层次不清的,数量级不同的,这就给后续的数据分析和数据挖掘带来的极大的麻烦,甚至导致错误的结论。所以有必要对数据进行预处理,接着就来讨论下数据预处理技术。     通常数据预处理包含四个部分:数据清理、集成和变换、规约以及概念分层。
     数据清理又包含:遗漏值处理、噪音数据处理以及不一致数据的处理三类。   
    (1)对于大型数据库而言,要分析的某一维的某个属性中数据有遗漏是再正常不过的事情了,对于这种情况,有如下处理办法;忽略该元祖、人工填写、使用一个全局常量填充遗漏值、使用属性的平均值填充遗漏值、使用与给定元组属同一类的所有样本的平均值、使用最可能的值填充遗漏值。在此最常用的也是最合理个人认为是最后一种方法,可能值可以通过回归分析、贝叶斯形式方法或判定树等得出。(具体方法在以后博文中概述)(2)噪音数据:正如自然界有很多噪音一样,数据也会参杂很多杂质,除噪音的技术有分箱、聚类、计算机人工检查和回归。分箱技术只要是把数据分类然后用合理的数值替换原先数据,致使出去原数据中的噪音;聚类技术是通过“距离”等判别把数据进行概念分层,过渡到更高一级的层次;回归技术则是利用回归模型,用模型预测值代替原有数据。(3)不一致数据:可以查资料进行手动更正。
     数据集成和变换.数据集成顾名思义是把多个原数据中的数据结合、存放到一个数据存储。如数据仓库。其中要考虑三个问题:实体识别、数据冗余和数据值冲突检测与处理。数据变换是数据处理的必然结果,主要有平滑、聚集、数据泛化、规范化以及属性构造。其中平滑可以用分箱、聚类和回归来实现。数据泛化过程即概念分层,将低层次的数据提炼到更高一级的概念层次中。规范化又有最大最小规范化、0-值规范化和小数定标规范化。此外还可以构造新的属性来使数据集成。
     数据规约:当你面临大型数据库中的海量数据时,要分析这些数据是个很庞大的工程,如果对所有数据进行分析和挖掘,将要耗费很长的时间。如果我们能把握主要数据,那么分析起来将快捷很多。此类技术主要有如下几类:数据方聚集、维规约(检测并删除不相关、弱相关或冗余的属性或维)、数据压缩(小波或傅立叶变换以及主成份分析)、数值规约(用替代的、较小的数据表示替换或估计数据):主要有回归、直方图、聚类、选样等操作;还有概念分层。
     以上,大致介绍了一些数据预处理的基本方法和思路,具体的方法另外再详细介绍。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据预处理 数据挖掘 预处理 大型数据库 主成份分析 数据处理 数据挖掘 数据分析

沙发
远婷 发表于 2011-2-25 11:57:55
有用,留着。

藤椅
gracechen0707 发表于 2011-3-4 14:16:12
这个是一个背景介绍么

板凳
luorongjin 发表于 2011-3-7 09:06:10
你好!这里只是简单介绍下数据挖掘前期的数据预处理步骤和方法,具体的方法要视不同的情况,不同的算法而定。本文抛砖引玉,提供一个思路,如有差错还望多多指证,一起交流进步,谢谢! 3# gracechen0707

报纸
junmeili 发表于 2011-3-10 02:26:19
just an introduction, do you have more detailed information?
tutu

地板
lililiu33 发表于 2011-3-30 09:54:05
看看,了解了解也好

7
michael.lee 发表于 2012-9-11 15:31:30
再说说模型建立、训练 啊

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-31 05:19