楼主: 何人来此
858 33

[量化金融] 信用评分中拒绝推理的深层生成模型 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
64.8012
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24593 点
帖子
4128
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
何人来此 在职认证  发表于 2022-6-25 05:41:24 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Deep Generative Models for Reject Inference in Credit Scoring》
---
作者:
Rogelio A. Mancisidor, Michael Kampffmeyer, Kjersti Aas, Robert
  Jenssen
---
最新提交年份:
2021
---
英文摘要:
  Credit scoring models based on accepted applications may be biased and their consequences can have a statistical and economic impact. Reject inference is the process of attempting to infer the creditworthiness status of the rejected applications. In this research, we use deep generative models to develop two new semi-supervised Bayesian models for reject inference in credit scoring, in which we model the data generating process to be dependent on a Gaussian mixture. The goal is to improve the classification accuracy in credit scoring models by adding reject applications. Our proposed models infer the unknown creditworthiness of the rejected applications by exact enumeration of the two possible outcomes of the loan (default or non-default). The efficient stochastic gradient optimization technique used in deep generative models makes our models suitable for large data sets. Finally, the experiments in this research show that our proposed models perform better than classical and alternative machine learning models for reject inference in credit scoring.
---
中文摘要:
基于公认应用程序的信用评分模型可能存在偏差,其后果可能会产生统计和经济影响。拒绝推断是试图推断被拒绝申请的信誉状态的过程。在本研究中,我们使用深层生成模型开发了两个新的半监督贝叶斯模型,用于信用评分中的拒绝推理,其中我们将数据生成过程建模为依赖于高斯混合。目标是通过添加拒绝应用程序来提高信用评分模型中的分类精度。我们提出的模型通过精确列举贷款的两种可能结果(违约或非违约),推断出被拒绝申请的未知信用度。深层生成模型中使用的高效随机梯度优化技术使我们的模型适用于大型数据集。最后,本研究中的实验表明,我们提出的模型在信用评分拒绝推理方面的性能优于经典和替代机器学习模型。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Quantitative Finance        数量金融学
二级分类:Risk Management        风险管理
分类描述:Measurement and management of financial risks in trading, banking, insurance, corporate and other applications
衡量和管理贸易、银行、保险、企业和其他应用中的金融风险
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
--> Deep_Generative_Models_for_Reject_Inference_in_Credit_Scoring.pdf (984 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:信用评分 Applications Quantitative Optimization Consequences

沙发
mingdashike22 在职认证  发表于 2022-6-25 05:41:29
信用评分中拒绝推理的深层生成模型Rogelio A.Mancisidora,b,*罗盖略。一mancisidor@uit.noMichael卡姆普夫·迈耶拉米夏尔。c、 kamp ff公司meyer@uit.noKjersti Aasckjersti@nr.noRobertJenssenarobert。jenssen@uit.noaMachine挪威大学科技学院物理与技术系学习小组,挪威北极大学,Hansine Hansens veg 18,Tromso9037,NorwaybCredit风险模型,桑坦德消费银行AS,Strandveien 18,Lysaker 1325,NorwaycStatistical Analysis,机器学习和图像分析挪威计算中心,Gaustadalleen 23a,奥斯陆0373,挪威*通讯作者2021年9月27日摘要。基于公认应用程序的信用评分模型可能存在偏差,其结果可能会产生统计和经济影响。拒绝推断是试图推断被拒绝申请的信誉状态的过程。受半监督深层生成模型的良好结果的启发,本研究开发了两种新的贝叶斯模型,用于在半监督框架下结合高斯混合和辅助变量与生成模型进行信用评分拒绝推理。据我们所知,这是首次将这些概念结合在一起进行研究。目标是通过添加拒绝应用程序来提高信用评分模型的分类准确性。此外,我们提出的模型通过精确列举贷款的两种可能结果(违约或非违约),推断出被拒绝申请的未知信用度。在深层生成模型中使用的高效随机梯度优化技术使我们的模型适用于大型数据集。

藤椅
能者818 在职认证  发表于 2022-6-25 05:41:32
最后,本研究中的实验表明,我们提出的模型在信用评分拒绝推理方面的性能优于经典和替代机器学习模型,并且模型性能随着用于模型训练的数据量的增加而增加。关键词:拒绝推理、深层生成模型、信用评分、半监督学习1简介信用评分使用统计模型将客户数据转换为衡量借款人偿还贷款能力的指标[1]。这些模型通常是基于公认的应用程序开发的,因为银行知道客户是否偿还了贷款。问题是这个数据样本是有偏差的,因为它系统地排除了被拒绝的应用程序。这称为选择偏差。使用有偏差的样本来估计任何模型都有几个问题。直接的结果是,模型参数有偏差[2],这会对统计和经济产生影响[3,4]。另一个后果是,违约概率可能被低估,从而影响风险溢价和银行的盈利能力[5]。因此,拒绝推断,即试图推断被拒绝申请的真实信用状况的过程,引起了人们极大的兴趣。有大量文献使用经典统计方法进行拒绝推理。然而,使用机器学习技术的研究很少(见表1)。半监督学习方法使用标记的(已接受的应用程序)和未标记的数据(已拒绝的应用程序)设计和训练模型,旨在利用这两种数据中嵌入的信息来改进未观察的分类。有几个领域的半监督深度生成模型已经取得了最先进的成果,例如:。

板凳
能者818 在职认证  发表于 2022-6-25 05:41:35
在半监督图像分类中【7,8】,在半监督情感分析中【9,10】,在无监督聚类中【11】。此外,嵌入在其最新空间中的有用信息有很好的文档记录[12、13、14、15]。受【7】引入的建模框架的启发,本研究开发了两种新的信用评分拒绝推理模型模型,即在半监督框架中,针对时间、辅助变量【8】和由神经网络参数化的高斯混合。我们提出的模型有一个由高斯混合引起的灵活的潜在空间,以改进变分近似和输入数据的重建[8,16]。此外,我们的一个模型不仅使用输入数据对新的贷款申请进行分类,而且还使用它的潜在表示。这使得分类更具表现力[8,16]。我们将半监督生成模型的性能与代表信用评分拒绝推理最新技术的一系列技术进行了比较,包括三种经典拒绝推理技术(重新分类、模糊划分和增强[17]),以及三种半监督机器学习方法(自学习MLP、自学习SVM和半监督SVM[19])。此外,我们还包括两个有监督的机器学习模型(多层感知器(MLP)[20]和支持向量机(SVM)[21]),以测量拒绝推理的边际收益。综上所述,本文的主要贡献如下:1。我们首次在半监督框架下,结合辅助变量和高斯混合,开发了两种新的信用评分拒绝推理模型,并使用生成模型。2、我们推导了我们提出的模型的目标函数,并展示了如何用MLPs参数化它们,以及如何用随机梯度下降优化它们。3.

报纸
何人来此 在职认证  发表于 2022-6-25 05:41:38
我们使用MLP参数化高斯混合,并展示如何使用半监督数据对其进行训练。4、我们的实证结果表明,与最先进的信用评分方法相比,我们提出的模型取得了更高的绩效。此外,我们提出的模型的模型性能随着用于训练的数据量的增加而增加。论文的其余部分组织如下。第2节回顾了拒绝推理怀疑风险的相关工作,然后第3节概述了半监督深层生成模型并介绍了所提出的模型。第4节解释了数据、方法和主要结果。最后,第5节给出了本研究的主要结论。2个相关的工作银行决定是否向新的应用程序授予信贷,以及如何处理现有客户,例如,决定是否应增加信贷限额,并确定最适合的营销活动。帮助银行解决第一个问题的工具被称为信用评分模型,而行为评分模型用于处理退出的客户【22】。这两种模型都估计了借款人无法履行其债务义务的能力,即违约概率。本研究的重点是拒绝推理,通过利用被拒绝的应用程序来提高creditscoring模型的分类准确性。在表(1)中,我们提供了信用评分中拒绝推理的最新研究概述,扩展了文献[23]中的内容。有关重新分类和模糊包裹方法的回顾,请参见【1,3】。(年)作者数据类型状态拒绝编号接受编号。

地板
能者818 在职认证  发表于 2022-6-25 05:41:41
拒绝拒绝推理方法分类方法(1993)Jones【25】Artific Unknown 75 12 Reclasification Logistic(2000)Feelders【24】Artific Unknown Variable EM QDA,Logistic(2001)Chen and Astebro【4】Cooperate Known 298 599 Heckman模型Probit,双变量Probit(2003)Banasik et al【26】Consumer Known 8 168 4 040 Augmentation Logistic,Probit(2004)Crook and Banasik【27】消费者已知8 168 4 040扩增,外推物流(2004)Verstraeten和Van den Poel【28】消费者部分已知38 048 6 306扩增物流(2005)Banasik和Crook【29】消费者已知8 168 4 040扩增物流(2006)Sohn和Shin【30】*消费者未知759 10重新分类生存分析(2007)Banasik和Crook【31】消费者已知8 168 4 040扩增和Heckman模型物流,二元概率(2007)Kim和Sohn【32】Corporate Known 4 298 689 Heckman模型二元概率(2007)Wu和Hand【33】Arti-Known Variable Variable Heckman模型OLS,二元概率(2010)Banasik和Crook【34】*Consumer Known 147 179 Variable Augmentation Survival analysis(2010)Marshall et al【5】Consumer Known 40 700 2 934 Heckman模型概率,双变量probit(2010)Maldonado和Paredes【35】消费者已知800 200外推SVM(2012)Chen和Astebro【36】公司已知4 589变化界和崩溃Bayesian(2013)B¨ucker等人【2】消费者未知3 984 5 667增强Logistic(2013)Anderson和Hardin【37】消费者未知3 000 1 500增强,EM Logistic(2016)Nguyen【3】消费者未知56 016 142 571增强,外推Logistic(2017)Li等人【23】消费者未知56 626 563 215外推半监督支持向量表1:拒绝推断的最新研究概述。

7
可人4 在职认证  发表于 2022-6-25 05:41:44
第2节包含了与我们的研究不同的研究范围。估计违约概率有两种广泛的方法;函数估计模型(如logistic回归)和密度估计方法(如线性判别分析)。当被拒绝的应用程序被忽略时,后者更容易提供有偏差的参数估计[6,24]。根据[6],拒绝推理代表了几个挑战。首先,当试图纠正选择偏差时,用于开发当前信用评分模型的客户特征必须可用。否则,在新模型中包含被拒绝的应用程序可能不足以纠正选择偏差。一些技术,如混合分解,需要对默认分布和非默认分布进行假设。一般来说,这些分布是未知的。最后,基于有关拒绝申请的补充信贷信息的方法(可能在信贷局购买)对于一些金融机构来说可能不现实。要么他们无法支付,要么数据可能不可用。拒绝推理的一种简单方法是扩充[17]。在这种方法中,对接受的应用程序进行重新加权,以表示整个群体。确定这些权重的常用方法是使用接受/拒绝概率。例如,如果给定的应用程序被拒绝的概率为0.80,则所有类似的应用程序将加权1/(1- 0.8)=5倍[1]。使用增广的经验研究在纠正选择偏差或改善模型性能方面均未显示出显著的改善,请参见[1、2、26、27、28、29、31]。增强技术假设违约概率与贷款是否被接受无关【38】。

8
可人4 在职认证  发表于 2022-6-25 05:41:47
然而,[32]从经验上表明,这种假设是错误的。Heckman的双变量两阶段模型【39,40】已用于不同的拒绝推理研究。这种方法同时对接受/拒绝和默认/非默认机制进行建模。假设这些过程中的误差项为二元正态分布,单位方差和相关系数为ρ,当ρ6=0时会产生选择偏差,并使用米尔斯比率的倒数进行校正。尽管赫克曼模型很受欢迎,但尚不清楚该模型是否能够纠正选择偏差或提高模型性能。一些研究声称,使用Heckman模型后,模型性能更高或模型参数不同【5、26、31、32、42】。如【4】所述,这些结果取决于选择方程和默认方程是否相关。另一方面,[33、36、43]指出,模型参数是无效的,主要的批评是,赫克曼的模型在选择偏差较大时未能纠正选择偏差。如果选择和结果方程中的错误项之间的相关性很高,或者数据的审查程度很高,就会发生这种情况【43】。文献[3]比较了不同的拒绝推理方法,如增广、分组、模糊分组和theHeckman模型。包裹和模糊包裹方法非常相似。他们首先使用公认的应用程序建立逻辑回归模型。然后,他们使用这个模型来估计以诺贝尔奖获得者詹姆斯·约瑟夫·赫克曼命名的赫克曼模型,该模型在不同的方向上进行了扩展或修改。有关模型演化及其早期应用的时间顺序概述,请参见[4]。在[41]中,Heckman的方法首次应用于结果离散的信用评分。所有被拒绝应用程序的默认概率。

9
nandehutu2022 在职认证  发表于 2022-6-25 05:41:50
不同之处在于,包裹方法根据默认概率选择阈值,将未知结果y分配给被拒绝的应用程序。另一方面,模糊包裹法假设每个拒绝申请都有结果SY=1和y=0,权重由仅使用接受申请的拟合模型给出。最后,包裹(模糊包裹)方法利用已接受和已接受的应用程序,构建了一个新的(加权)逻辑回归。[3]中的结果没有显示使用拒绝推断方法的更高模型性能。然而,当应用增广法和帕塞林法时,参数估计值是不同的。因此,在这种情况下,拒绝推理对最终模型有统计和经济影响。[35]中使用支持向量机扩展了自训练(SL)算法,增加了被拒绝的应用程序风险更大的假设。具体而言,他们的方法是迭代添加具有更高可信度的拒绝应用程序,即远离决策超平面的向量,以重新训练SVM(就像SL算法一样)。然而,靠近超平面的向量会受到惩罚,因为它们的真实标签的不确定性更高。与使用支持向量机(包括半监督支持向量机(S3VM))的其他拒绝推理配置相比,他们提出的迭代方法具有更高的性能。除了更高的性能外,【35】中的迭代过程比S3VM更快。[23]中使用S3VM模型进行信用评分中的拒绝推理,将接受和拒绝的应用程序区分开来,以确定具有最大裕度的最优超平面。超平面穿过被拒绝应用程序的非密度区域,同时分离被接受的应用程序。

10
kedemingshi 在职认证  发表于 2022-6-25 05:41:53
与logit和监督支持向量机模型相比,它们的结果显示了更高的性能。在第4节中,我们展示了S3VM不能扩展到大型信用评分数据集,并且我们提出的模型能够使用比S3VM至少多16倍的数据。在【24】中,高斯混合模型(GMM)用于违约概率的密度估计。其思想是混合密度中的每一组分都模拟一类条件分布。然后,使用期望最大化(EM)算法估计模型参数,即使拒绝的应用程序缺少类标签,该算法也可以估计参数。EM算法也用于[37]中的拒绝推理。两篇论文都报道了高模型性能。然而,[24]中的结果是基于人工数据的,[37]仅根据混淆矩阵判断绩效。最后,EM算法的主要限制是我们需要能够估计潜在变量的期望值。我们在第3节中展示了深层生成模型通过近似绕过了这一限制。文献[36]中提出了一种拒绝推理的贝叶斯方法。在这种方法中,缺省概率来自缺失数据机制。作者使用界坍缩方法估计分数和类别标签上的后验分布,该后验分布假定具有Dirichlet分布以及缺失类别标签的边缘分布。使用有界collapsemethod的原因是为了避免像Gibbs抽样这样的穷举数值过程,以估计该模型中的后验分布。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-11 00:52