楼主: angelwii
2148 1

[数据挖掘理论与案例] 讨论下ROC与K-S的问题 [推广有奖]

  • 0关注
  • 0粉丝

已卖:13份资源

大专生

80%

还不是VIP/贵宾

-

威望
0
论坛币
52 个
通用积分
0.4500
学术水平
2 点
热心指数
1 点
信用等级
1 点
经验
5450 点
帖子
39
精华
0
在线时间
64 小时
注册时间
2013-11-2
最后登录
2025-12-16

楼主
angelwii 发表于 2018-8-2 10:43:58 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
第一次发帖,因为做评分卡会经常设计到ROC和KS,所以在此想和各位讨论下ROC和K-S的通俗理解。
首先看定义:
KS检验使用的是两条累计分布曲线之间的最大垂直差作为D值(statistic D)作为描述两组数据之间的差异。
ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。

对于评分卡来讲,我们建立好一个评分卡后一般会划分为N个区间,每个区间会有实际的好人,坏人数量,从而可以得到一个截至每个区间,累计好和累计坏的样本数量。
如下:
评分分段

总人数

坏客户数

好客户数

好累计

坏累计

KS

1

2161

65

2096

8.14%

1.82%

6.33%

2

3635

196

3439

21.50%

7.29%

14.21%

3

5524

438

5086

41.25%

19.53%

21.73%

4

5982

645

5337

61.98%

37.54%

24.44%

5

4068

536

3532

75.70%

52.51%

23.19%

6

2651

448

2203

84.26%

65.03%

19.23%

7

3191

682

2509

94.00%

84.08%

9.92%

8

2114

570

1544

100.00%

100.00%

0.00%



那么,对于K-S来说,横轴是评分分段,或者说是数据百分比,而纵轴是累计占比,两条线,一条是累计好,一条是累计坏,而K-S的值就是取累计好-累计坏的最大值。限于字数就不贴图了。应该比较好理解。



而ROC曲线,是根据TPR/FPR画的,TPR,FPR官方定义如下:

TPR:在所有实际为阳性的样本中,被正确地判断为阳性之比率。TPR=TP/(TP+FN)FPR:在所有实际为阴性的样本中,被错误地判断为阳性之比率。FPR=FP/(FP+TN)


并不是那么好理解。然后我就根据自己的想法,转换了下:
对于一个cutoff的评分卡,TPR对应的是cutoff下坏的判断为坏的占比,而FPR则是cutoff下好的判断为坏的占比。
对应到评分卡,比如cutoff是第一个区间以下,那么TPR就是第一个区间的累计坏,而FPR就是第一个区间的累计好。
由此定义,根据每个区间作为cutoff,可以得到8组(TPR,FPR)的值,从而得到一条ROC曲线。


我这么理解有问题不??


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


已有 1 人评分经验 论坛币 学术水平 收起 理由
阿扁V5 + 60 + 5 + 1 精彩帖子

总评分: 经验 + 60  论坛币 + 5  学术水平 + 1   查看全部评分

沙发
阿扁V5 学生认证  发表于 2018-8-3 12:01:25
总结的不错

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-27 06:16