基于工作的需要和个人兴趣,近日仔细研究了《IBMSPSS 数据分析与挖掘实战案例精粹》第18章‘信用评分方法’,对其中的部分公式产生疑问,基于个人学识有限及学术严谨性,现在此咨询,希望能得到专家的确认。
如:
(1)、第412页的 WOE= ln(好客户占比/坏客户占比)*100 公式,是否应该将乘以100去掉?我查阅了其它资料,关于WOE的公式都只写到 WOE = ln(好客户占比/坏客户占比),包括R语言专门用于最优分箱的Smbinning包的计算结果也没有乘以100,如果只是结果呈现那倒没什么,问题是这个woe会影响到最终评分值的计算。
(2)、417页的 Score + pdo =...右边是否多了一项Factor,从后面的计算结果来看,应该是
Score + pdo = Offset + Factor * ln(2* odds)
(3)、418页的 Score = ∑ (Offset/n -Factor * ( a/n βj* woe)) 是否少了一个+号,β下标是否应该是i.正确的式子是否为:Score = ∑ (Offset/n -Factor * ( a/n+ βi* woe))
另外,书中的样本是3000条,1、0类各占50%,作者为了使数据类别比例与实际接近,采用了过简单的采样方法,将0类的每条记录重复30次,最终得到0类为45000条,类别占比0:1为97%:3%,之后再这些数据经过一系列的处理转换,最终用被用于构建Logistic模型,这样不是相当于在数据类别极不平衡的情况下建模,得到的模型特征系数还有意义?(如果拿模型去预测,岂不是都预测为0类)书中最终拿这些系数去计算信用评分,这样做可以?