|
我们的数据集中的消费者需要在2016年11月1日至2018年11月1日期间在平台上进行过至少三次借贷实例,即至少有三次历史贷款。为了限制贷款顺序的长度,只记录每个消费者最接近的15笔贷款。这样,数据集中的每个消费者都拥有一个时间贷款序列,最小长度为3,最大长度为15。对于贷款序列中的每笔贷款,仅记录该贷款发放前6个月内的订单以及该贷款发放前14天内的会议。这是因为排序和浏览操作对预测违约风险的贡献被认为是时间敏感的。例如,客户不太可能花两周以上的时间来决定是否购买某样东西。因此,当前贷款前14天以上的浏览行为可能没有帮助。在该贷款发放前,少于3个订单或3个会议被取消。这样,贷款序列中的每个贷款都具有一个时间顺序子序列和一个时间会话子序列,这两个序列的最小长度为3,最大长度为15。从满足上述要求的消费者中,随机选择2500名贷款序列中无违约记录的消费者,随机选择2500名贷款序列中至少有一条违约记录的消费者。当消费者拖欠贷款超过90天时,会生成默认记录。总共挑选了5000名消费者。表1:贷款汇总统计。贷款数量为38182笔,其中11184笔贷款违约。
|