楼主: 何人来此
1078 20

[量化金融] 基于账户聚类分析的信用风险识别 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
64.8012
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24593 点
帖子
4128
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
何人来此 在职认证  发表于 2022-6-1 00:49:48 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Identification of Credit Risk Based on Cluster Analysis of Account
  Behaviours》
---
作者:
Maha Bakoben, Tony Bellotti and Niall Adams
---
最新提交年份:
2017
---
英文摘要:
  Assessment of risk levels for existing credit accounts is important to the implementation of bank policies and offering financial products. This paper uses cluster analysis of behaviour of credit card accounts to help assess credit risk level. Account behaviour is modelled parametrically and we then implement the behavioural cluster analysis using a recently proposed dissimilarity measure of statistical model parameters. The advantage of this new measure is the explicit exploitation of uncertainty associated with parameters estimated from statistical models. Interesting clusters of real credit card behaviours data are obtained, in addition to superior prediction and forecasting of account default based on the clustering outcomes.
---
中文摘要:
评估现有信贷账户的风险水平对于实施银行政策和提供金融产品非常重要。本文使用信用卡账户行为的聚类分析来帮助评估信用风险水平。对账户行为进行参数化建模,然后我们使用最近提出的统计模型参数的相异性度量来实施行为聚类分析。这种新方法的优点是明确利用了与统计模型估计的参数相关的不确定性。除了基于聚类结果对账户违约进行卓越的预测和预测外,还获得了真实信用卡行为数据的有趣聚类。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Statistics        统计学
二级分类:Applications        应用程序
分类描述:Biology, Education, Epidemiology, Engineering, Environmental Sciences, Medical, Physical Sciences, Quality Control, Social Sciences
生物学,教育学,流行病学,工程学,环境科学,医学,物理科学,质量控制,社会科学
--

---
PDF下载:
--> Identification_of_Credit_Risk_Based_on_Cluster_Analysis_of_Account_Behaviours.pdf (382.61 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:聚类分析 信用风险 Applications parametrical exploitation

沙发
何人来此 在职认证  发表于 2022-6-1 00:49:53
基于会计行为聚类分析的信贷风险识别Shaha Bakoben1、2、Tony Bellotti和Niall Adams1,3伦敦帝国理工学院数学系,伦敦SW7 2AZ,联合王国统计部,阿卜杜勒国王大学,P.O.Box 80200,吉达21589,沙特阿拉伯海尔布朗数学研究所,布里斯托尔大学,布里斯托尔BS8 9AG,联合王国对现有信贷账户的风险水平进行评估,对于实施银行政策和提供金融产品至关重要。本文使用信用卡账户行为的聚类分析来帮助评估信用风险水平。对账户行为进行参数化建模,然后我们使用最近提出的统计模型参数的相异性度量来实施行为聚类分析。这种新方法的优点是明确利用了与统计模型估计的参数相关的不确定性。除了基于clusteringoutcomes的卓越预测和账户违约预测之外,还获得了真实信用卡行为数据的有趣集群。关键词:行为信用评分;信贷行为集群;聚类参数不确定性;默认预测。1、简介行为信用记分卡可以定义为客户行为的统计模型,即随时间推移的卡使用和还款(Till and Hand,2003)。这些模型的目的是确定哪些现有客户可能在偿还贷款时遇到困难(Thomas et al.,2002)。识别不同的风险水平可能有助于提高信贷限额或提供金融产品方面的经营决策(Thomas et al.,2002;Till and Hand,2003)。在本文中,我们提出了一种基于客户行为可用数据识别不同风险组的新方法。

藤椅
大多数88 在职认证  发表于 2022-6-1 00:49:56
该方法旨在将信用卡账户分配给集群,以便相同集群中的账户行为相似。这种聚类分析可以作为一种工具,用于构建不同的行为记分卡或为客户群制定不同的营销策略。零售银行业的一个典型兴趣是预测客户连续三个月无法达到约定月还款的最低金额的可能性,这种情况称为“违约”。基于账户行为汇总的违约预测模型传统上用于行为信用评分(Thomas,2009)。汇总汇总可以定义为一种统计数据,它以单个值(如平均值或中位数)描述时间序列。这种方法可能会导致动态行为数据中固有的宝贵信息丢失。我们介绍了一种开发违约预测和预测模型的新方法。该方法利用信贷行为聚类分析的结果。为了区分预测模型和预测模型,前者预测观察到的行为期内的违约状态,而预测模型在观察到行为后的未来时期预测违约状态。聚类方法的一个基本方面是指定适合数据的相异性度量。由于行为可以被视为时间序列,在定义相异性度量时需要考虑序列相关性。本文将考虑两个阶段来确定时间序列对象之间的不相似性。第一个是建立一个多变量时间序列模型来表达账户的动态特征。

板凳
能者818 在职认证  发表于 2022-6-1 00:49:59
这一阶段通过提供模型参数作为总结,减少了数据的维数,此外,它还使得具有不同交易数量的信用账户之间的差异性比较成为可能。第二阶段计算模型参数置信区域之间的相异性。由于待聚类对象是统计模型的参数,因此它们表现出统计不确定性。值得注意的是,这种不确定性是由用于估计模型的数据量所驱动的。最近在Bakobenet al.(2016)中引入的这种不确定性感知相异性度量,旨在解释估计模型参数中的这种不确定性。考虑这种不确定性会产生比仅基于参数估计的聚类更可靠的聚类。我们不知道有任何文献使用本文描述的时间序列聚类方法对信贷行为进行聚类分析。Hsieh(2004)的一篇论文先前研究了基于行为区分信贷账户的问题。作者应用自组织映射神经网络,根据交易变量(包括还款行为)识别不同的可盈利群体。这是基于帐户行为的聚合值。在Wei和Mingshu(2013)的另一项研究中,基于应用和行为变量的客观聚类分析(OCA),将信用卡账户划分为多个聚类。标准欧几里德距离用于相异性计算。然后,为每个聚类创建一个神经网络来预测“好”和“坏”账户。

报纸
nandehutu2022 在职认证  发表于 2022-6-1 00:50:02
本研究再次考虑了行为的总体表现,这可能会导致丢失有关账户行为随时间动态变化的有价值信息。关于信用账户行为聚类分析的最早研究之一是Edelman(1992)的论文,该论文对拖欠计数进行了聚类。在Edelman(1992)中,使用k-medoids聚类方法和欧几里德距离对两年内每月观察到的账户总拖欠进行聚类,其中分析的主要目的是识别月数聚类或月数与产品的组合。Adamset al.(2001)根据线性回归模型的最小二乘参数估计,将信用卡账户分为两类。线性模型适用于十二个月期间的累计还款金额。同样关于信用卡行为,Till and Hand(2003)根据拖欠次数随时间变化的多项式模型线性斜率的欧几里德距离,将拖欠次数分组。注意,这些论文关注的是单变量行为的聚类,而本文提出的聚类方法适用于多个行为。本文的组织结构如下。第2节描述了信用卡账户行为的可用真实数据集。第3节说明了聚类分析的两个阶段。第四节介绍了违约的预测和预测模型。第5节介绍了集群账户行为的实证结果。第6节和第7节分别显示了默认预测和预测模型的结果。最后,第7节总结了本研究的工作。2、数据集信用卡数据集包括英国一家匿名银行494个账户的每月行为,最长期限为37个月。

地板
大多数88 在职认证  发表于 2022-6-1 00:50:05
该数据的目标是根据客户每月的行为将其分配到集群中,我们旨在区分高风险客户和低风险客户。对于单个客户s,我们用ys表示相应的行为信贷账户,用Ts表示其长度。每个账户都有以下特征:ys,Returns表示客户每月还款金额的向量,ys,Bal表示每个月末账户总余额的向量,ys,Cl表示每月信用额度的向量,对于大多数客户来说是静态的。后两种行为将通过新的行为向量ys、ut间接考虑,即利用率;总余额与信贷限额的比率,提款率=总余额信贷限额,其中提款率的值应介于0和1之间。然而,在某些情况下,该比率低于或高于标准范围。例如,客户多付了贷款(即ys,余额<0)或总余额超过了信贷限额(即ys,余额>ys,cl)。信贷数据中的平均利用率为0.6355。最小值和最大值为-分别为7.0990和3.5600。信用卡数据集中的其他特征包括拖欠计数——累计未付款次数。该范围在0到12之间。此外,默认状态xs(t)∈ {0,1}对于t=1。Ts是根据拖欠金额确定的。如果客户在时间t之前错过了几笔连续付款(通常是三笔),则默认状态xs(t)=1,否则xs(t)=0。请注意,只有还款金额和利用率将用于构建集群。为了进行评估,60%的信贷账户培训数据用于构建模型,40%的账户用于测试。3.

7
mingdashike22 在职认证  发表于 2022-6-1 00:50:09
聚类方法本节描述了确定信用卡行为之间差异的两个阶段。第3.1节描述了第一阶段,即客户行为的时间序列建模,第3.2节描述了定义模型参数之间差异的传统方法,第3.3节说明了在信用卡行为聚类分析的差异性度量中包含参数不确定性。3.1。时间序列建模首先,我们降低观察到的行为的维度,以使信用账户之间的差异性比较可行。我们遵循Bakoben等人(2015)提出的基于时间序列模型的简化方法。对于单个账户s,每月还款行为ys,return=[ys,return(t=1),…,ys,return(t=Ts)]t,以及利用率行为ys,ut=[ys,ut(t=1),…,ys,ut(t=Ts)]t,可以用一阶的双变量向量自回归模型(VAR)描述如下(Lütkepohl,2005):ys,偿还(t)ys,ut(t)=θs,1θs,2θs,3θs,4ys,偿还(t- 1) ys,ut(t- 1)+u(t)u(t), (1) 其中,u=[u(t),u(t)]是弱平稳白噪声过程的向量,u~ N(0,∑)。VARmodel中的每个方程分别由普通似然估计量估计(Lütkepohl,2005)。通过拟合一到N阶行为信贷账户的二元VAR模型,我们获得了N个向量的VAR系数θs=[θs,1,…,θs,p]t,在这种情况下,p=4.3.2。传统的聚类方法如Bakoben等人(2015)所述,可以直接在一对VAR系数向量之间计算欧氏距离。对于两种信用账户行为Yr=【Yr,Return,Yr,ut】和Ys=【Ys,Return,Ys,ut】,其相应VAR系数θr=【θr,1,…,θr,p】和θs=【θs,1,…,θs,p】之间的欧氏距离计算如下:deuc(Yr,Ys)=VuTPxi=1(θr,i- θs,i)。(2)3.3.

8
可人4 在职认证  发表于 2022-6-1 00:50:11
不确定性感知聚类这些估计的VAR参数受统计不确定性的影响。这种类型的不确定性可以通过估计参数向量的方差矩阵来表征,用ψ表示。Bakoben等人(2016年)提出了一种在计算数据点之间的不相似性时明确包含不确定性的方法。新指标的思想是测量(1)之间的重叠- α) VAR系数的置信区间。每个置信区域由一个椭球几何表示,椭球定义为:Es(θs,ψs):{(x- θs)T(c^ψs)-1(x- θs)≤ 1} ,其中标量c=ppFp,Ts-p-1,1-α、 Ts是对应信用账户的长度,α是重要级别。每对椭球体(Er,Es)之间的重叠比由R,s给出≡版本∩EsVEr+VEs- 版本∩Es,r 6=s,VEr,VEs>0,(3)其中椭球体VErand VEs的超体积通过数学公式VE=πp/2 |ψ| 1/2Γ(p/2+1)计算(Friendly等人,2013)。重叠区域的体积,VEr∩Es,通过蒙特卡罗模拟(Robert和Casella,2010)进行估计,因为重叠体积没有闭合公式。然后,VAR系数置信区域之间的相似性由Dell(Yr,Ys)=1确定- Rr、s、dell∈ [0, 1]. (4) 信贷行为聚类分析的下一步是实施k-medoids划分聚类方法(Kaufman和Rousseeuw,1987,2008)。每个帐户都被分配到具有最接近的medoids m的群集。具有不确定性感知差异性的k-medoids方法试图识别群集,以最大程度地减少与主题m的距离之和,mk.对于信用账户Ys,定义了集群分配向量zs=(zs,1,…,zs,k),其中向量zs,lfor l=1,k、 由,zs,l给出=如果argminldell(Ys,Yml)为0,则为1,否则为。(5)4.

9
可人4 在职认证  发表于 2022-6-1 00:50:14
使用集群进行模型预测和预测我们开发了一个预测违约的模型。该模型还将用于评估集群性能。在这里,我们引入了一个二进制响应变量▄xs,它指示帐户是否有过默认设置。帐户s的此二进制值在可用帐户的周期[t=1,…,t=Ts]内测量,如下所示:▄xs=max[xs(t=1),…,xs(t=Ts)],其中▄xs=1表示帐户s至少被默认一次。默认状态根据聚类分配进行预测,聚类分配是逻辑回归模型中的一个解释变量:p(~xs=1 | zs)=eβ+Pkj=1βjzs,j1+eβ+Pkj=1βjzs,j。(6)方程式6也用于预测,其中对每个账户文件的前2/3进行聚类分析,并在最后1/3期间测量预测默认值。这是由于可用信用账户的长度可变,因此选择观察期和预测期的特定长度是不合理的,因为账户的长度可能小于特定的观察期。图1说明了默认预测模型中的观察和预测期。请注意,信用卡发放后需要一些时间窗口,以便在观察期内进行测量(例如,图1中的t=13到t=24)。t=1,12 t=13,24 t=25,37观测期预测期1图1:defaultforecasting模型中观测和预测期的图示。为了评估新的违约模型,我们将其性能与传统的聚合模型进行了比较。该模型使用向量gs=(\'grepay,\'gut)t定义的时间序列的聚合表示对默认状态进行建模,该向量由单变量时间序列ys、ReturnandYS、ut的平均值组成。

10
能者818 在职认证  发表于 2022-6-1 00:50:17
总还款行为由“grepay=PTst=1ys,return(t)Ts”给出。(7)同样,计算总使用率行为。然后,通过p(~xs=1 | gs)=eβ+β来定义聚合违约模型。gs1+eβ+β。gs,(8),其中β是聚合表示gs的二维参数向量。违约模型的预测和预测性能通过以下常见评估标准进行评估:H-度量(Hand,2009),Kolmogorov-Smirnov统计(Duda et al.,2001),基尼指数(Hastie et al.,2009)和接收器工作特性曲线下的区域(AUC)(Fawcett,2006)。结果:信用卡行为聚类我们采用第3节中描述的不确定性感知聚类方法,聚类数k=3。该数字的选择考虑到信贷账户行为的合理客观聚类,并找到最佳聚类数超出了本文的范围。表1列出了三类信贷账户的比例。表1还显示了基于使用标准欧几里德距离聚类的聚类结果。与基于椭球体的聚类不同,欧几里德距离倾向于创建一个包含大量账户的聚类,而其他聚类包含少量信贷账户样本。例如,群集CCompises占总帐户的62%。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-16 21:15