楼主: 968_1583157077
1003 0

[学习笔记] 【学习笔记】- 为什么要引入分箱: - 评分结果需要有一定稳定性。 - 分类 ... [推广有奖]

  • 0关注
  • 0粉丝

大专生

75%

还不是VIP/贵宾

-

威望
0
论坛币
510 个
通用积分
13.9143
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
270 点
帖子
52
精华
0
在线时间
0 小时
注册时间
2020-3-2
最后登录
2020-6-7

楼主
968_1583157077 发表于 2020-5-31 10:27:54 来自手机 |只看作者 |坛友微信交流群|倒序 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
- 为什么要引入分箱:
  - 评分结果需要有一定稳定性。
  - 分类型变量:个数比较少就可以不作处理,如果取值过多会导致“变量膨胀”.

- 分箱的要求:
  - 不需要分箱变量:对于分类型变量如果取值较少,一般无需分箱
  - 分箱结果的有序性:对于有序型变量(数值型、有序离散型)
  - 分箱的平衡性:严格来说,每一个箱子占比不能相差太大,一般要求占比最小的箱子不低于5%。
  - 分箱的单调性:严格来说,有序型变量分箱后每个箱子的坏样本率与箱子呈单调关系。
  - 分箱的个数:5-7个比较合适
- 分箱优缺点:
  - 优点:稳定、缺失值处理、异常值处理、不需要做归一化
  - 缺点:有信息损失、需要做编码
- 常用的分箱方法:
  - 有监督:CART树最优分箱、卡方分箱
  - 无监督:等距、等深、聚类
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:学习笔记 稳定性 习笔记 缺失值处理 CART

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-15 07:25