发帖

楼主: ada89k

1589 1

[数据挖掘理论与案例] 数据挖掘——数据理解和预处理 [推广有奖]

3关注
72粉丝

院士

99%

还不是VIP/贵宾

-

0%

威望: 2 级
论坛币: 538792 个
通用积分: 14.7458
学术水平: 123 点
热心指数: 149 点
信用等级: 82 点
经验: 46289 点
帖子: 1667
精华: 3
在线时间: 2443 小时
注册时间: 2017-2-7
最后登录: 2024-4-22

楼主

ada89k

发表于 2017-2-23 17:16:03 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

数据挖掘——数据理解和预处理

一、数据理解

拿到数据后要做的第一步就是理解数据。什么是理解数据呢?不是简单看下有多少Excel表，有多少行，多少列，而是要结合自己的分析目标，带着具体的业务需求去看。

首先，我们需要明确数据记录的详细程度，比方说某个网站的访问量数据是以每小时为单位还是每天为单位;一份销售数据记录的是每家门店的销售额还是每个地区的总销售额。

其次，我们需要确定研究群体。研究群体的确定一定和业务目标是密切相关的。比方说，如果我们想研究用户对产品的满意度与哪些因素有关，就应该把购买该产品的所有客户作为研究群体;如果我们想研究用户的购买行为受哪些因素影响，就应该同时考察购买人群和非购买人群，在两类人群的对比中寻找关键因素。

研究群体的确定有时也和数据的详细程度有关。比如我们想研究“观众影评”对“电影票房”的影响，我们既可以把“每部电影”看成一个个体，研究“影评总数”对“电影总票房”的影响，也可以把“每部电影每天的票房”看成一个个体，研究“每天的影评数”对“每天的电影票房”的影响。具体选择哪一种取决于我们手上有什么样的数据，如果只有总票房和总影评数的数据，那我们只能选择第一种;如果有更详细的数据，那就可以考虑第二种方案。

需要注意的是，这两种方案还会影响我们对于模型的选择。例如，如果研究“每天的影评数”对“每天电影票房”的影响，那每部电影又被细分为很多天，同一部电影不同时间的票房会有较高的相似性，这就形成了一种层次结构，可以考虑使用层次模型(hierarchical model)进行分析。

最后，当我们确定了研究目标和研究群体后，我们需要逐一理解每个变量的含义。有些变量和业务目标明显无关，可以直接从研究中剔除。有些变量虽然有意义，但是在全部样本上取值都一样，这样的变量就是冗余变量，也需要从研究中剔除。还有一些变量具有重复的含义，如“省份名称”和“省份简称”，这时只需要保留一个就可以了。

二、变量类型

所有变量按其测量尺度可以分成两大类，一类是“分类变量”，一类是“数值变量”。不同类型的变量在处理方法和后期的模型选择上会有显著差别。

【分类变量】

分类变量又称属性变量或离散变量，它的取值往往用有限的几个类别名称就可以表示了，例如“性别”，“教育程度”，“收入水平”，“星期几”等。细分的话，分类变量又可分为两类，一类是“名义变量”，即各个类别间没有顺序和程度的差别，就像“手机系统”中ios和安卓并没有明显的好坏差别，“电影类型”中“动作片”和“科幻片”也都是一样的，说不上哪个更好或更差。另外一类是定序变量，即不同类别之间存在有意义的排序，如“空气污染程度”可以用“差、良、优”来表示、“教育程度”可以用“小学、初中、高中、大学”来表示。

当研究的因变量是分类变量时，往往对应特定的分析方法，我们在后面的章节会陆续讲到，这里暂且不谈。当研究中的自变量是分类变量时，也会限制模型选择的范围。有些数据挖掘模型可以直接处理分类自变量，如决策树模型;但很多数据挖掘模型不能直接处理分类自变量，如线性回归、神经网络等，因此需要将分类变量转换成数值变量。

对于定序自变量，最常用的转换方法就是按照类别程度将其直接转换成数值自变量，例如将空气污染程度 “差、良、优”转换为“1,2,3”。

对于名义自变量，最常用的转换方法就是构造0-1型哑变量。例如，对于“性别”，可以定义“1=男，0=女”。当某个名义变量有K个类别取值时，则需要构造K-1个哑变量。例如教育程度“小学，初中，高中，大学及以上”，可以构造三个哑变量分别为：x1：1=小学，0=其它;x2：1=初中，0=其它;x3：1=高中，0=其它。当x1，x2，x3三个哑变量取值都为0时，则对应着“大学及以上”。

需要注意的是，有时候名义变量的取值太多，会生成太多的哑变量，这很容易造成模型的过度拟合。这时可以考虑只把观测比较多的几个类别单独拿出来，而把剩下所有的类别都归为“其它”。例如，中国一共包含56个民族，如果每个民族都生成一个哑变量就会有55个，这时我们可以只考虑设置“是否为汉族”这一个0-1哑变量。

【数值变量】

我们再来看看数值变量。数值变量就是用数值描述，并且可以直接进行代数运算的变量，如“销售收入”、“固定资本”、“评论总数”、“访问量”、“学生成绩”等等都是数值变量。

需要注意的是，用数值表示的变量不一定就是数值型变量，只有在代数运算下有意义的变量才是数值型变量。例如财务报表的年份，上市时间等，虽然也是用数值表示的，但我们通常不将它们按照数值型变量来处理。

上面我们讲到，分类变量通常要转换成数值型变量，其实有些时候，数值型变量也需要转换成分类变量，这就用到了“数据分箱”的方法。为什么要进行数据分箱呢?通常有以下几个原因：

1. 数据的测量可能存在一定误差，没有那么准确，因此按照取值范围转换成不同类别是一个有效的平滑方法;

2.有些算法，如决策树模型，虽然可以处理数值型变量，但是当该变量有大量不重复的取值时，使用大于、小于、等于这些运算符时会考虑很多的情况，因此效率会很低，数据分箱的方法能很好的提高算法效率;

3.有些模型算法只能处理分类型自变量(如关联规则)，因此也需要将数值变量进行分箱处理。

数据分箱后，可以使用每个分箱内的均值、中位数、临界值等作为这个类别的代表值，也可以直接将不同取值范围定义成不同的类别，如：将污染程度划分后定义为“低、中、高”等。

那如何进行数据分箱呢?常用的数据分箱的方法有：等宽分箱(将变量的取值范围划分成等宽的几个区间)、等频分箱(按照变量取值的分位数进行划分)、基于k均值聚类的分箱(将所有数据进行k均值聚类，所得的不同类别即为不同的分箱)，还有一些有监督分箱方法，如：使分箱后的结果达到最小熵或最小描述长度等。这里不详细介绍了，有兴趣的童鞋可以自行百度。

三、质量检查

对数据中的各个变量有了初步了解后，我们还需要对数据进行严格的质量检查，如果数据质量不过关，还需要进行数据的清洗或修补工作。一般来说，质量检查包括检查每个变量的缺失程度以及取值范围的合理性。

【缺失检查】

原始数据中经常会存在各种各样的缺失现象。有些指标的缺失是合理的，例如顾客只有使用过某个产品才能对这个产品的满意度进行评价，一笔贷款的抵押物中只有存在房地产，才会记录相应的房地产的价值情况等。像这种允许缺失的变量是最难搞的，因为我们很难判断它的缺失是合理的，还是由于漏报造成的。

但无论哪种情况，如果变量的缺失率过高，都会影响数据的整体质量，因为数据所反映的信息实在太少，很难从中挖掘到有用的东西。

对于不允许缺失的变量来说，如果存在缺失情况，就必须进行相应的处理。如果一个变量的缺失程度非常大，比方说达到了70%，那就考虑直接踢掉吧，估计没救了。如果缺失比例还可以接受的话，可以尝试用缺失值插补的方法进行补救。

插补的目的是使插补值能最大可能的接近其真实的取值，所以如果可以从其他途径得到变量的真实值，那一定优先选择这种方法。比如某个公司的财务信息中缺失了“最终控制人类型”和“是否国家控股”这两个取值，这些可以通过网上的公开信息得到真实值;再比如缺失了“净利润率”这个指标的取值，但是却有“净利润”和“总收入”的取值，那就可以通过变量间的关系得到相应的缺失值，即净利润率=净利润/总收入。

当然，更多的时候，我们无法得到缺失值的真实信息，这时就只能借用已有的数据来进行插补了。对数值变量来说，可以用已观测值的均值、中位数来插补缺失值;对分类型变量来说，可以用已观测数据中出现比例最高的类别取值来进行插补。这些方法操作起来非常简单，但它们都是对所有缺失值赋予了相同的取值，所以当缺失比例较大时，可能会扭曲被插补变量与其余变量的关系。

更复杂一点的，我们可以选择模型插补方法，即针对被插补变量和其它自变量之间的关系建立统计模型(如回归、决策树等)，将模型预测值作为插补值。

如何处理缺失值是一个很大的研究课题，我们这里只是介绍了最简单可行的方法，有兴趣的读者可以参阅Little和Rubin 2002年的专著“Statistical Analysis with Missing Data”。

【变量取值合理性检查】

除了缺失外，我们还要考察每个变量的取值合理性。每个变量都会有自己的取值范围，比如“用户访问量”、“下载次数”一定是非负的，“投资收益率”一定在0~1之间。通过判断变量的取值是否超出它应有的取值范围，可以简单的对异常值进行甄别。

除了根据变量的取值范围来检查变量质量外，还可以根据变量之间的相互关系进行判断。例如一家公司的“净利润率”不应该大于“总利润率”等。

只有通过了各个方面检测的数据才是一份高质量的数据，才有可能带来有价值的模型结果。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏2 回帖

关键词：数据挖掘数据挖掘技术

[数据挖掘理论与案例] 数据挖掘——数据理解和预处理 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[数据挖掘理论与案例] 数据挖掘——数据理解和预处理 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群