首先看定义:
KS检验使用的是两条累计分布曲线之间的最大垂直差作为D值(statistic D)作为描述两组数据之间的差异。
ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。
对于评分卡来讲,我们建立好一个评分卡后一般会划分为N个区间,每个区间会有实际的好人,坏人数量,从而可以得到一个截至每个区间,累计好和累计坏的样本数量。
如下:
| 评分分段 | 总人数 | 坏客户数 | 好客户数 | 好累计 | 坏累计 | KS |
| 1 | 2161 | 65 | 2096 | 8.14% | 1.82% | 6.33% |
| 2 | 3635 | 196 | 3439 | 21.50% | 7.29% | 14.21% |
| 3 | 5524 | 438 | 5086 | 41.25% | 19.53% | 21.73% |
| 4 | 5982 | 645 | 5337 | 61.98% | 37.54% | 24.44% |
| 5 | 4068 | 536 | 3532 | 75.70% | 52.51% | 23.19% |
| 6 | 2651 | 448 | 2203 | 84.26% | 65.03% | 19.23% |
| 7 | 3191 | 682 | 2509 | 94.00% | 84.08% | 9.92% |
| 8 | 2114 | 570 | 1544 | 100.00% | 100.00% | 0.00% |
那么,对于K-S来说,横轴是评分分段,或者说是数据百分比,而纵轴是累计占比,两条线,一条是累计好,一条是累计坏,而K-S的值就是取累计好-累计坏的最大值。限于字数就不贴图了。应该比较好理解。
而ROC曲线,是根据TPR/FPR画的,TPR,FPR官方定义如下:

TPR:在所有实际为阳性的样本中,被正确地判断为阳性之比率。TPR=TP/(TP+FN)FPR:在所有实际为阴性的样本中,被错误地判断为阳性之比率。FPR=FP/(FP+TN)
并不是那么好理解。然后我就根据自己的想法,转换了下:
对于一个cutoff的评分卡,TPR对应的是cutoff下坏的判断为坏的占比,而FPR则是cutoff下好的判断为坏的占比。
对应到评分卡,比如cutoff是第一个区间以下,那么TPR就是第一个区间的累计坏,而FPR就是第一个区间的累计好。
由此定义,根据每个区间作为cutoff,可以得到8组(TPR,FPR)的值,从而得到一条ROC曲线。
我这么理解有问题不??


雷达卡




总结的不错
京公网安备 11010802022788号







