请选择 进入手机版 | 继续访问电脑版
楼主: 滨滨有利123
1365 0

[投稿经验分享] 也说建模分箱 [推广有奖]

  • 0关注
  • 30粉丝

副教授

24%

还不是VIP/贵宾

-

威望
0
论坛币
198 个
通用积分
25.4545
学术水平
1 点
热心指数
2 点
信用等级
0 点
经验
9596 点
帖子
328
精华
0
在线时间
381 小时
注册时间
2015-4-26
最后登录
2023-9-23

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

怎么定义有没有监督的学习,其实就是看有没有y值在里面做标签。这里所提到的无监督分箱里的等频分箱、等距分箱和聚类分箱,就是不用y值在里面做参考判定的。


无监督的方法

等频分箱——就是均分的思想,比如我有一堆数,平均分成几堆,每一堆的数量都是一样的;

等距分箱——每个分箱之间的距离是一样的,比如分数范围是1-100,那每一箱的距都划分为10为距离,以【1-10】、【11-20】...【91-100】,这样来划分分箱;

聚类分箱——以k-means聚类等算法为计算逻辑,划分为多个区间,然后计算初始中心,然后不断将附近的类别纳入属它最近的中心里,不断循环重新计算,直到每个聚类中心不再变化,得到最终的聚类结果。


有监督的方法

那在有监督的算法里,我们来着重讲一下卡方分箱


什么是卡方分箱

卡方是用来观察频数与期望频数差异程度的一种统计学表示方法,如果没有差异就表示两个变量相互独立不相关。


实际应用中,我们先假设原假设成立,计算出卡方的值,卡方表示观察值与理论值间的偏离程度。

卡方值的计算公式为:

也说建模分箱0.jpg

其中A为实际频数,E为期望频数。卡方值用于衡量实际值与理论值的差异程度,这也是卡方检验的核心思想。

卡方值包含了以下两个信息:

1.实际值与理论值偏差的绝对大小。
2.差异程度与理论值的相对大小。


具体卡方分箱如何操作

我们平台有不少只用python的小伙伴,所以本篇文章中也介绍python的代码实例:


1、初始化阶段:首先按照属性值的大小进行排序(对于非连续特征,需要先做数值转换,然后排序),并且先进行前期的等频分箱,减少计算的复杂度。

也说建模分箱1.jpg


发现等频分箱的处理,可以发现,计算的复杂度大大减少,也为下面的卡方分箱的计算做好准备。

2、合并阶段:

(1)对每一对相邻的组,计算卡方值。

也说建模分箱2.jpg


(2)根据计算的卡方值,对其中最小的一对邻组合并为一组。

也说建模分箱3.jpg


(3)不断重复(1),(2)直到计算出的卡方值都不低于事先设定的阈值,或者分组数达到一定的条件

也说建模分箱4.jpg


最后附上操作视频,展示分箱的结果:

也说建模分箱5.PNG



写在最后

为什么需要分箱?


分箱的好处还是很多的,尤其是使用逻辑回归的评分卡建模中,分箱woe也是一种标配。


总的来说,分箱有这么几个用处:

1.异常数据不会对数据造成很大影响——比如一个特征是年龄>20是1,否则0。如果特征没有离散化,一个异常数据“年龄101岁”会给模型造成很大的干扰;

2.单变量离散化后,每个变量有单独的权重,能够提升模型表达能力,加大拟合;

3.特征离散化以后,能够简化了逻辑回归模型的作用,降低了模型过拟合的风险。

4.分箱可以将缺失作为独立的一类带入模型。


当然,分完箱也只能做完成了大部分的处理,其实还没完成最终建模。下一步我们还需要将相关的分箱进行woe相关编码,才能最终入模。关于这一部分我们后面的文章再跟各位分箱。


此份分箱的完整代码,会同步到知识星球,各位同学有兴趣可以上去查收。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-16 13:11