这项研究针对台湾客户的违约支付情况,并比较了六种数据挖掘方法中的违约概率的预测准确性。
default of credit card clients.zip
(1.37 MB, 需要: 5 个论坛币)
本附件包括:- default of credit card clients.xls
Data Set Characteristics: | Multivariate | Number of Instances: | 30000 | Area: | Business |
Attribute Characteristics: | Integer, Real | Number of Attributes: | 24 | Date Donated | 2016-01-26 |
Associated Tasks: | Classification | Missing Values? | N/A |
来源:
Name: I-Cheng Yeh
email addresses: (1) icyeh '@' chu.edu.tw (2) 140910 '@' mail.tku.edu.tw
institutions: (1) Department of Information Management, Chung Hua University, Taiwan. (2) Department of Civil Engineering, Tamkang University, Taiwan.
数据集信息:
这项研究针对台湾客户的拖欠付款情况,并比较了六种数据挖掘方法中拖欠概率的预测准确性。从风险管理的角度来看,估计违约概率的预测准确性的结果将比分类的二元结果(可信或不可信的客户)更有价值。由于违约的真实概率是未知的,因此本研究提出了新颖的“排序平滑方法”。估计违约的真实概率。将违约的真实概率作为响应变量(Y),并将违约的预测概率作为自变量(X),简单线性回归结果(Y = A + BX)表明,人工神经网络生成的预测模型具有最高的确定系数;其回归截距(A)接近零,回归系数(B)接近1。因此,在六种数据挖掘技术中,人工神经网络是唯一可以准确估计实际违约概率的技术。
属性信息:
这项研究采用了一个二元变量,即默认付款(是= 1,否= 0)作为响应变量。这项研究回顾了文献,并使用以下23个变量作为解释变量:
X2:性别(1 =男性; 2 =女性)。
X4:婚姻状况(1 =已婚; 2 =单身; 3 =其他)。
X6-X11:过去的付款历史。我们跟踪了过去的每月付款记录(从2005年4月到2005年9月):X6 = 2005年9月的还款状态;X7 = 2005年8月的还款状态;。。。; X11 = 2005年4月的还款状态。还款状态的度量标准为:-1 =定期付款;1 =付款延迟一个月;2 =付款延迟两个月;。。。; 8 =付款延迟八个月;9 =付款延迟9个月以上。
X18-X23:以前的付款金额(新台币)。X18 = 2005年9月支付的金额;X19 = 2005年8月支付的金额;。。。; X23 = 2005年4月支付的金额。
相关论文:
Yeh, I. C., & Lien, C. H. (2009). The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients. Expert Systems with Applications, 36(2), 2473-2480.


雷达卡




京公网安备 11010802022788号







