楼主: 有福有德
748 0

[其他] 监督分箱 [推广有奖]

教师

院士

6%

还不是VIP/贵宾

-

威望
4
论坛币
56500 个
通用积分
8.5335
学术水平
344 点
热心指数
203 点
信用等级
274 点
经验
37400 点
帖子
1138
精华
10
在线时间
946 小时
注册时间
2010-10-14
最后登录
2024-5-30

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

监督分箱

内容摘要:监督分箱法一方面有利于分箱误差最小化,另一方面可以提供有效的业务标签制作。

参考索引:阅读网络资料。

监督分箱法步骤

监督分箱法是一种最小化监督值(如卡方)来确定最优分箱边界的方法。

其原理如下:

1.将连续变量按照大小排序,将其分为 k个初始分箱,并计算监督值或误差,通常是误差。

2.对于每个分箱,计算其正样本数量和负样本数量,并计算其对应的卡方值。

3.合并相邻的分箱,并计算新分箱的卡方值。

4.不断执行步骤3,直到分箱数目满足条件。

方法的优点是可以最大程度地减小分箱误差,在有限制条件下寻找最优解,帮助实现标签制作自动化。但其缺点是计算复杂度较高,难以应用于大型数据,而且如果结合模型使用的话,往往容易过拟合。

监督分箱.png

分箱法作用

1.探索和分析不同组的数据分布情况。

2.有利于监测异常点和离群值。对于某些靠近分组边界的数据点,可以根据业务需求决定将其放入哪个分组。

3.提升模型的准确度和稳定性。

4.降低复杂度,避免缺失值和异常值的影响,并提高模型的运算能力。

5.提高模型的解释性。对于一些业务解释比较重要的场景,使用数据分箱法可以让模型更加易于解释,提高标签制作的速度和性能。

书籍.png


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:样本数量 使用数据 数据分布 限制条件 大型数据

所有模型都是错的
您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-17 07:01