在日常工作中,无论是销售、运营、产品还是市场,很多情况下都需要一份清晰明了的数据分析报告,能有效地将主题信息和分析结果传达给客户、领导和同事。对于数据分析报告,在乙方工作的同学肯定非常熟悉,经常需要测试相关的数据。这样的一份数据分析报告有点类似于模型开发报告,但又不全是类似模型分析的内容,因为它更关注数据质量。今天我们就来介绍这样的内容。
当然既然是分析报告,一定有结果,也就是必须有观点,有结论。
一定要在报告中呈现结论。
报告的整体框架如下:
以下是详情部分:
1.引言
1.1 概述
此次所提供的款样本数据,以人为单位进行好坏样本定义,对贷款风险评分进行效果测试,协助相关人员全面、深刻地了解贷款风险评分。
1.2 数据检测相关定义
1.2.1 评分时点
本次评分皆以检测样本的申请时间作为评分时点,评分所涉及的个人信息皆为该时间点之前数据库中存储的相关静态数据,而对于评分时点以后纳入到征信数据库中的任何信息都不对评分产生任何影响。
1.2.2 检测样本时间范围
贷款样本申请时间点在2016年1月1日至2018年12月31日之间,样本数据更新时间截至2019年1月。
1.2.3 业务定义
a. 表现期
贷款发放日期之后的12个月内
b. 账户状态
(1) 正常:逾期天数在0-60天之内
(2) 关注:逾期天数在61-90天之内
(3) 次级:逾期天数在91-180天之内
(4) 可疑:逾期天数在181-360天之内
(5) 损失:逾期天数在360天之上
c. 坏样本
在表现期内,申请贷款的客户在数据库中所有贷款账户中有曾出现过“xxxx”字眼,这些状态的即为坏样本
n 好样本
其他不满足坏样本定义的即为好样本
1.2.4 评分准入条件
n 贷款风险评分的评分准入条件为:
(1) 年满18周岁
(2) 在数据库中可验证其身份真实性
(3) 在征信数据库内可查询到较丰富的个人信息,
即对于仅可查询到个人户籍身份信息的申请者不予评分,对不满足模型准入条件的检测样本和拒绝样本将不予评分。
1.2.5 拒绝/取消样本(以下简称拒绝样本)
评分时点之后,15天内贷款记录中未有申请人的发放记录,则认为该笔申请被拒绝或主动取消。
2. 检测数据说明
2.1 数据基本情况
提供的检测样本共计50000条,排除客户在评分时点之前所有贷款账户中有出现“xxx”状态的样本1000条,排除没有申请贷款风险模型评分的样本或不符合评分条件的样本9000条,最后剩下40000条样本。其申请时间在2016年1月1日至2018年12月31日之间。
2.1.1 批核情况
检测样本中,接受样本为10000条,拒绝样本为30000条。各月详细申请及批准情况见下表:
表2.1.1 审批结果统计表
从上表可以看出:在评估期间,贷款申请客户的批核率维持在21.6%-43.5%,总体批核率为31.9%。
2.1.2 样本坏账情况
在发放贷款的10000条检测数据中,“坏样本”共计x000笔,坏样本占比约为 x.6%;“好样本”共计 x000笔 。
表2.1.2 样本账户表现统计表
总样本 | 好样本 | 坏样本 | ||
数量 | 百分比 | 数量 | 百分比 | |
10000 | x000 | x0.4% | x000 | x.6% |
2.2 数据质量分析
样本中,有97.3%的样本满足评分准入条件,剩下的2.7%的样本仅匹配到户籍信息,不满足评分准入条件,无法对其进行风险分数给定。具体如下:
表2.2 数据质量统计表
3. 评分检验
3.1 评分覆盖率
评分覆盖率指一个时期内的所有贷款申请业务中,可以使用模型得出评分结果的业务笔数占比,用于衡量模型的适用性。
40000条样本的评分覆盖率结果如下:
表3.1 评分覆盖率统计表
年份 | 样本总数 | 评分样本总数 | 评分覆盖率 |
2016 | 10000 | 10000 | 97.5% |
2017 | 20000 | 20000 | 97.1% |
2018 | 10000 | 10000 | 97.3% |
总体 | 50000 | 50000 | 97.3% |
由上表可以清晰的看出,XX三个年度评分覆盖率均为97.1%以上,说明模型评分适用性广。
......
......
限于篇幅,此份报告下篇还包括以下部分:
3.2 评分分布
3.2.1 总体样本分布
3.2.2 好坏样本分布
3.3 评分性能分析
3.3.1 提升指数
3.3.2 K-S指标
3.3.3 稳定性检测
3.4 评分政策
3.4.1 评分政策制定
3.4.2 自动审批比例
3.4.3 否决分析
4 结论
此份报告下篇会放在知识星期,有兴趣关注的同学的请继续留意此份报告的下篇部分。