- 为什么要引入分箱:
- 评分结果需要有一定稳定性。
- 分类型变量:个数比较少就可以不作处理,如果取值过多会导致“变量膨胀”.
- 分箱的要求:
- 不需要分箱变量:对于分类型变量如果取值较少,一般无需分箱
- 分箱结果的有序性:对于有序型变量(数值型、有序离散型)
- 分箱的平衡性:严格来说,每一个箱子占比不能相差太大,一般要求占比最小的箱子不低于5%。
- 分箱的单调性:严格来说,有序型变量分箱后每个箱子的坏样本率与箱子呈单调关系。
- 分箱的个数:5-7个比较合适
- 分箱优缺点:
- 优点:稳定、缺失值处理、异常值处理、不需要做归一化
- 缺点:有信息损失、需要做编码
- 常用的分箱方法:
- 有监督:CART树最优分箱、卡方分箱
- 无监督:等距、等深、聚类