传统的信审需要看客户资质,看客户银行流水,就是从各项资料中去看客户的信用风险。但唯独少的一part就是用数据分析的方式去处理信贷数据。
今天我们将从线上信贷中常见的数据分析场景——数据预处理着手,跟大家讲讲在线上审批中提取到了审批数据后,如何去处理客户的数据。今天我们先介绍较为基础的堆叠表的内容。
不论是客户画像、特征分析,还是风控模型的建立,对客户的征信、历史风险表现等明细级数据的预处理都是必不可少且耗时最长的一个环节。本文我们将就数据分析中较为常见的问题——堆叠表与宽表之间的转换,以案例的方式向大家进行具体的实操分析。
本文框架为:
一.信贷场景中有哪些常见的堆叠表
二.数据清洗演示实操:
2.1.用R进行的实操
2.2.用excel进行的实操(无代码基础)
三.总结
一.信贷场景中有哪些常见的堆叠表
在数据仓库中数据的存储是通过某天中用户的记录行为存放的,用户的状态发生了变动对应的数据状态就会有相应的变动数据。比如在信贷中最典型的两个场景为:
场景一:客户的还款行为记录表。A用户今天还一笔,明天还一笔,还款记录表就会在某个还款记录表中产生两条还款记录;类似对于B用户也一样。这样取到的还款记录数据如下所示:
场景二:催收人员与客户联系的记录表。每个催收人员跟客户联系完都会有相应的通话记录并相应的关键信息留存,比如未接通或下P这些相关的信息等内容。
但以上的数据维表中,是较为原始的报表,需要加入我们自身的数据清洗使之成为一条独立的样本。比如在场景一中,我们经常可以操作的是合并每个用户的还款金融计算出该用户总还款金额,或者算出每个用户的还款的时间查。所以清洗该数据最重要的一个思路就是行转列,我们常称为行堆叠表与宽表之间的转换。
所谓行堆叠表,就是单客户的各个属性数据堆叠成多个观察的形式展现。
将上述的案例抽象出来就是将以下内容:
将每个客户作为一个观察,其属性数据分行排列展示的方式,例如:
二.数据清洗演示实操:
2.1.用R进行的实操
使用reshape包中的cast函数:
1、载入reshape包:library(reshape)
2、导入需要处理的数据,命名为test1:test1<-read.csv("test1.csv")
3、调用cast函数处理,并将结果存入名为test2的新表中:
test2<-cast(test1,varabl_key~value)
4、最后将结果导出:
write.table(test2,"test2.csv",row.names=FALSE, sep=",")
2.2.用excel进行的实操(无代码基础)
现在介绍两种比较简便的转换方式。第一种,直接通过Excel进行操作:
1、选择需要转换格式的数据区域,点击“数据”->“从表格”
得到如下结果:
2、点击确定:
3、选取希望由堆叠转为横向排列的字段,本例中为varabl_key,点击“转换”->“透视列”:
4、透视列的选项框中,“值列”选择需要展示的内容,本例中为value,展开高级选项,选择“不要聚合”:
5、点击“确定”,即可得到宽表格式:
三.总结
在场景的数据分析场景中堆叠表与宽表之间,只是其中一个常见的内容。本文中所涉及的数据分析代码跟资料,可以参考我们的知识星球的内容。下篇我们再介绍多一些更为常见的线上数据分析内容,谢谢大家关注我们的内容。


雷达卡


京公网安备 11010802022788号







