楼主: 滨滨有利123
735 1

这些信贷数据埋点中不得不知的埋点知识 [推广有奖]

  • 0关注
  • 30粉丝

副教授

24%

还不是VIP/贵宾

-

威望
0
论坛币
198 个
通用积分
25.4545
学术水平
1 点
热心指数
2 点
信用等级
0 点
经验
9596 点
帖子
328
精华
0
在线时间
381 小时
注册时间
2015-4-26
最后登录
2023-9-23

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
国庆七天假,就这样飞快结束,似乎感觉还没休息够,再来一个七天都不觉得多多。

经过多年来移动互联网的普及,众多APP已采集到亿级乃至数十亿级别用户在设备端、通话、短信、地址等强变量的数据,伴随着近年来信贷行业高速发展,基于设备端采集到数据应用在信贷业务反欺诈及信用风险识别上,已经司空见惯。

这里所提到的行为,多数就是跟数据埋点相关的内容。埋点是一种用户行为数据化的记录,基于业务或者产品需求,对用户在产品内产生行为的每一个事件对应的页面、位置、属性等植入相关代码,并通过采集工具上报统计,采集的数据可以用来分析网站/APP的使用情况,用户的使用习惯等等,延伸出用户画像、用户偏好、转化路径等一系列数据产品。

通常数据埋点都会采用5W原则进行设计:

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)




一.埋点所能获取数据维度

首先我们需要理解在风险管理过程中,数据埋点提供了更多的可解释依据,帮助问题归因,数据埋点是做好风险管理的底层支撑。而一个好的数据埋点最应该接触的就是一个产品流程。

一个完整的产品流程,从产品进件->审核->放款->贷后监控这一整条业务链条中,都会涉及相关数据。而其中最重要的数据采集基本都集中在贷前行为埋设。

而贷前行为又可以拆解为以下内容:注册->登陆->人脸识别....等这一系列动作。比如注册环节中最开始的一个欢迎页面,我们是否需要做埋点?如下面某产品的实际首页中:

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑




添加图片注释,不超过 140 字(可选)




最开始的欢迎页面,里面我们有哪些数据可埋设,有哪些策略可制定?有经验的数据分析师都应该实操下自家的产品,除了成功登陆页面外,会进入下一步的实操;而在输出密码错误则会出现有如下提示:

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑




添加图片注释,不超过 140 字(可选)

如图所示,一旦密码输错了,无法进入下个页面。那根据后台获取到的数据,有经验的策略分析人员至少需要思考两点,一个是次数另一个是时间,于是我们可以整理为:1.密码输入的错误的次数2.埋点中“欢迎页面”所停留的时间.....这里,错误的次数设置几次合适?停留的时间多长才算合理?这是策略分析人员需要考虑的问题。

后续,在这个首页的埋点之后,如果有OCR识别,我们将会再设计一个策略:

《OCR识别,客户可修改》

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑




添加图片注释,不超过 140 字(可选)




OCR维度可修改,这个还不算是一个最终能使用的维度。这个维度需要进一步拆分,可以拆分成哪些维度?

从OCR,图像识别上有哪些信息思考,这个内容就不难回答。不外乎是身份证正反面照/证件号/出生日期/姓名。综合这几个信息,我们就可以进一步将OCR维度往这几个颗粒度拆分。

除了这几个维度,还有吗?当然有,大家可以进一步思考,我们将在本周日即将开课的《信贷数据策略埋点》的星球课堂中进一步跟大家拆解。




二.埋点数据所衍生的强相关变量

基于以上的的数据埋点中,我们获取了这些埋点数据,那跟信贷业务强相关的维度又是哪些?

目前可应用于信贷数据维度包括已安装APP数量及APP对应类型、APP流量使用情况、wifi信息、通话详单、通讯录等维度,综合这些分析维度目前我们可以将APP可获取的相关的数据维度,加以清洗之后再划分为以下几大部分,分别是:基础信息、价值属性、行为偏好、信贷属性、综合评分

本文仅列举其中的两个部分具体介绍:




1.基础信息

基础信息中包括设备属性、人口属性、社会属性、稳定性、黑名单,具体字段列举如下:

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)




这里所提到的设备属性、人口属性、社会属性、稳定性、黑名单,具体字段如果拆开来讲细节很多,比如人口属性如上表所示,可衍生的细则就很多,其中设备指纹就是非常重要的一个数据。

另外再介绍基础信息中稳定性这个指标。之所以会挑这个指标,因为这个指标会涉及两个稍难点的内容,分别是:个人稳定性与家庭稳定性。特别是个人稳定性,会涉及到一个geohash的概念。以下,我们详解讲解:

个人稳定性,我们计算个人geohash的变动数据——

计算的逻辑是近4周 geohash停驻点个数 。这个geohash是什么意思?geohash是gps 的替代采集字段,是采集直径5km 的圆 。这个计算公式,就是通过计算近4周 geohash累积频次,从而筛选出目标的稳定停驻点的数据,从而判断目标是否稳定。

而家庭稳定性,稍微容易理解些。家庭稳定性,计算的逻辑是近12周家庭地址的变动次数 。我们会聚合12周家庭地的数据,计算家庭地变动次数。




2.信贷属性

另一个跟信贷业务较为强相关的部分就是信贷属性这个维度。信贷属性基于APP的信贷偏好及高危行为 。信贷属性中包括信贷偏好、高危行为。具体字段如下:

金融类 APP当前安装个数等小贷类 APP的安装个数与网贷p2p标签 ....

既然是APP的分类,就会涉及APP的规类问题。打开手机APP哪个是属于信贷类的?哪些是属于学习类的?哪些是属于母婴类的?这些APP都是怎么分类?这里就需要我们在内部存储一个APP分类库,其中在APP分类库中最重要的就是金融类APP的明细清单,具体的借贷APP的明细清单参考如下:

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

以上内容参考至:番茄风控会员社区《知识星球》内容

番茄风控社区历史会员课程《 Applist特征工程介绍》




...

~原创文章




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:信贷数据 是什么意思 数据分析师 网贷p2p 风险管理的

沙发
三江鸿 发表于 2022-10-9 09:08:52 来自手机 |只看作者 |坛友微信交流群
点赞支持 感谢分享

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-18 07:34