人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析与数据挖掘 › 监督分箱

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

返回列表

发帖

楼主: 有福有德

748 0

[其他] 监督分箱 [推广有奖]

12关注
180
粉丝

教师

院士

还不是VIP/贵宾

威望: 4 级
论坛币: 56500 个
通用积分: 8.5335
学术水平: 344 点
热心指数: 203 点
信用等级: 274 点
经验: 37400 点
帖子: 1138
精华: 10
在线时间: 946 小时
注册时间: 2010-10-14
最后登录: 2024-5-30

楼主

有福有德

发表于 2023-3-30 09:28:04 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

监督分箱

内容摘要：监督分箱法一方面有利于分箱误差最小化，另一方面可以提供有效的业务标签制作。

参考索引：阅读网络资料。

监督分箱法步骤

监督分箱法是一种最小化监督值（如卡方）来确定最优分箱边界的方法。

其原理如下：

1.将连续变量按照大小排序，将其分为 k个初始分箱，并计算监督值或误差，通常是误差。

2.对于每个分箱，计算其正样本数量和负样本数量，并计算其对应的卡方值。

3.合并相邻的分箱，并计算新分箱的卡方值。

4.不断执行步骤3，直到分箱数目满足条件。

方法的优点是可以最大程度地减小分箱误差，在有限制条件下寻找最优解，帮助实现标签制作自动化。但其缺点是计算复杂度较高，难以应用于大型数据，而且如果结合模型使用的话，往往容易过拟合。

监督分箱.png

分箱法作用

1.探索和分析不同组的数据分布情况。

2.有利于监测异常点和离群值。对于某些靠近分组边界的数据点，可以根据业务需求决定将其放入哪个分组。

3.提升模型的准确度和稳定性。

4.降低复杂度，避免缺失值和异常值的影响，并提高模型的运算能力。

5.提高模型的解释性。对于一些业务解释比较重要的场景，使用数据分箱法可以让模型更加易于解释，提高标签制作的速度和性能。

书籍.png

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：样本数量使用数据数据分布限制条件大型数据

[其他] 监督分箱 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[其他] 监督分箱 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群