楼主: 我是小趴菜
516 0

[数据挖掘新闻] 决策树中经常用熵作为判别条件而不是基尼不纯度?基尼不纯度是什么? [推广有奖]

  • 0关注
  • 4粉丝

教授

35%

还不是VIP/贵宾

-

威望
0
论坛币
29650 个
通用积分
380.5350
学术水平
1 点
热心指数
1 点
信用等级
0 点
经验
7150 点
帖子
670
精华
0
在线时间
37 小时
注册时间
2022-8-30
最后登录
2023-4-4

楼主
我是小趴菜 发表于 2022-12-13 13:37:08 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

绝大部分情况下熵(entropy)和基尼指数(Gini Index)在决策树节点分裂时做出的决策都是等价的。


先看一下如何定义节点分裂时的不纯度函数(impurity)有三种(假设有k个类别):




不难看出,三个函数均为凸函数。只不过误分率(函数1)是分段线性函数(piece-wise linear),有时候节点分裂会无法降低不纯度。所以函数2和3一般是常采用的手段,它们的优势如下:

  • 二者均为凸函数
  • 二者都可以微分所以便于数值计算
  • 二者都可以代表的函数1的误差上界(upper bound)

正因为它们都是光滑凸函数且为训练误分函数的错误上界,所以不仅保证了每次节点分裂整体的不纯度函数会下降且更适合运算。在绝大部分情况下,二者都是等价的,只有2%的情况下可能会有不同的分裂决策。如果非要说不同的话,就是熵的计算会需要求log,所以可能预算开销更大。但是求log是防止计算溢出的利器,特别适合用于处理极小概率的情况,所以并非只有缺点。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:决策树 Entropy Linear Index Piece

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-26 14:44