楼主: 我是小趴菜
1834 0

[数据挖掘新闻] 数据离散化的优点和方法 [推广有奖]

  • 0关注
  • 4粉丝

教授

35%

还不是VIP/贵宾

-

威望
0
论坛币
29650 个
通用积分
380.5350
学术水平
1 点
热心指数
1 点
信用等级
0 点
经验
7150 点
帖子
670
精华
0
在线时间
37 小时
注册时间
2022-8-30
最后登录
2023-4-4

楼主
我是小趴菜 发表于 2022-10-27 11:25:24 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

对数值属性作离散化,有下列数个优点:

1、可使数据精简,降低数据的复杂度,让数据更容易被解释;

2、可支持许多无法处理数值型属性的分类算法。例如,贝氏分类(Bayesian Classification)算法、以关联规则(Association Rules)为基础的分类算法等;

3、可提高分类器的稳定性,进而提升分类模型的准确度;

4、可找出条件属性在目标属性上的趋势(Trend),有助于未来的解读。

数据离散化的方法有如下几种:

1、人工分离法。依据对数据的认知、专家的建议、普遍存在的现象,将数据数值分离出数个区间,如年龄可以分离出下列三个区间,(0, 30]、(30,60]、(60,120],并分别对应到“青年”、“中年”和“老年”等三个数据数值。但是有时分类比较困难,专家也无法给出合理的检验,这时需要使用自动化的方法。

2、自动化分离—装箱法(Binning Method)。装箱法主要利用数据集合中数据数值的分布情形来进行区间分离,而每一个区间称为箱子(Bin)。装箱法主要分为两种,相等宽度(Equal-Width-Interval)装箱法和相等深度(Equal-Frequency-Interval)装箱法。相等宽度(Equal-Width-Interval)装箱法是在使用者所给定之箱子个数n下,依据排序过后数据数值之最大值与最小值切割成n个等宽箱子。如一组年龄数据28、29、30、31、32、35、36要进行相等宽带装箱,在使用者所给定之箱子个数为3下,每一个箱子的宽度为(36-28)/3 = 2.67,经四舍五入后为3。所以:

– 箱子一:28, 29, 30

– 箱子二:31, 32, 33,因为数据中没有33,所以箱子二为31, 32。

– 箱子三:34, 35, 36,因为数据中没有34,所以箱子二为35, 36。

相等宽度装箱法有一些问题,首先,通过等宽分箱可能会有的箱子存在空值,比如上例中如果没有31,32,则箱子二为空箱;其次,该方法受极值影响很大,因为箱子的宽度是根据数据的最大值和最小值来确定的。

因为等宽装箱法有一些缺点,所以有人又提出来了相等深度(Equal-Frequency-Interval)装箱法,即在使用者所给定之箱子个数n下,依据数据数值的数量切割成n个数量相等箱子。例如,会员数据表中总共有7笔数据记录(28、29、30、31、32、35、36),在用户所给定之箱子个数为3下,每一个箱子可装载之数据笔数为为7/3 = 2.33,经四舍五入后为2。所以,数据按照2,2,3分入到各个箱子中:

– 箱子一:28, 29

– 箱子二:30, 31

– 箱子三:32, 35, 36

然而,将数值属性离散化除了让数据精简、稳定模型外,如何让分析人员易于理解与解释也是非常重要的。一个易于理解与解释的离散化结果是,条件属性在目标属性上能够看出明显的趋势性(Trend)。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:离散化 Association Frequency Interval Bayesian

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-20 14:22