楼主: 何人来此
1079 33

[量化金融] 支票账户活动与企业信用违约风险 [推广有奖]

21
可人4 在职认证  发表于 2022-6-1 02:12:38
我们的实验反驳了这一论点:使用定义1中的所有30个变量,boosting的测试AUC仅为79.8%,这几乎是数据定义1财务和管理合并第1组第5组第6组第20组中使用的变量数量11 31测试AUClogit 70.87%75.33%79.55%不平衡随机林78.41%72.66%83.35%平衡随机林80.02%76.05%83.18%增加79.66%76.17%84.24%表4-logit中支票账户数据、财务和管理数据、合并数据的AUC,随机森林和助推。第6组来自第1组和第5组的融合。此mergeddata在平衡随机林和boosting中具有最佳性能。与第1组相同,显著低于第6组。)因此,我们可以得出结论,这三种信息来源是互补的,这与我们对企业实际运作的直觉相对应。首先,支票账户信息反映了企业的现金流,这与企业的可解决性最直接相关。第二,财务比率说明了公司的财务结构及其盈利能力。我们应该指出,我们使用的财务比率主要关注公司的盈利能力和支出(利息支出、息税前收益等),与现金流的关系更为密切,阿提亚(2001)也是如此。第三,应考虑其他非财务原因,例如,干部的管理专长。当然,这些并不是与信贷违约相关的所有因素的完整列表。例如,可以额外考虑一些宏观经济因素。2013-2014年期间,我们观察到季度违约率不断上升,这可能是由于同期欧洲利率下降所致。

22
kedemingshi 在职认证  发表于 2022-6-1 02:12:41
如果我们使用2009年至2012年的数据作为训练集,2013年至2014年的数据作为测试集,那么统计模式在2013年底和2014年初的违约情况下效果不太好。5支票账户数据中最重要变量的选择和解释由于定义1中30个变量之间的多重共线性问题,为了通过逻辑回归获得和解释每个显著变量的边际效应,需要一个变量选择过程。定义1中的重要变量列表如图3所示。我们可以看到,根据boosting,最重要的变量尤其与违规数量(var9、var11、var13)和当前状态(var27、var32、var33、var34)相关。虽然这是直觉的,但从提升的意义上来说,这种可变的重要性应该被视为一厢情愿。例如,这是否意味着var10(期间的预期违规次数[t- 23,t- 12] ,重要性列表中的ranked29)远没有var24有用(它反映了这一时期信贷的稳定性[t- 11,t],在重要性列表中排名第7)?事实上,如果我们画出每个变量的两个条件分布(以默认为条件),并计算它们各自的AUC,从而反映出它们各自的辨别力,那么var10的AUC(68.68%)远高于var24的AUC(56.61%)。这种看似自相矛盾的现象来自于boosting赋予可变重要性的机制。事实上,在每棵树的每次拆分时,拆分标准的改进都是归因于拆分变量的重要性度量,并在每个变量的boosting中分别累加到所有树上。var9和var10指的是同一类信息,但var9涉及的是较新的信息(期间[t- 11,t),自然比var10有更好的辨别力(AUC=72.68%vs AUC=68.68%)。

23
kedemingshi 在职认证  发表于 2022-6-1 02:12:44
对于每个节点拆分,这两个变量都是候选变量。由于var10没有var9的优势,它很少用于拆分,因此被视为“坏”变量。在这种情况下,最好是一个平庸但不可替代的变量,而不是一个辉煌但可替代的变量。但它也显示了增强在识别和消除冗余信息方面的优势。图3–定义1中30个变量的变量重要性根据Boosting,为了更严格地选择变量,我们尝试了其他两种基于逻辑回归的不同方法:逐步选择和套索。对于逐步选择,采用AIC作为标准。正向和反向选择生成了表5中标记的相同8个变量。为了比较不同的模型选择方法,我们调整了λinlasso,以精确得出8个非零系数。表5也恢复了这8个变量。请注意,8个变量中有7个与AIC选择的变量相同。因此,对于我们的数据,逐步和套索在模型选择上没有明显差异。相比之下,通过增强与套索和逐步选择的差异来选择的8个变量中有4个!这些变量都属于当前状态的变量。很难通过实验证实这种差异的原因。我们的直觉集中在助推过程中4个受欢迎的变量之间的多重共线性上。表6显示了这些变量之间的斯皮尔曼相关性。在我们看来,由于其限制性的线性形式,logitis无法解开这些变量中包含的交织信息。相反,boosting似乎能够消化这些复杂的信息。表7和表8中的回归结果证实了这一假设。

24
可人4 在职认证  发表于 2022-6-1 02:12:48
AIC选择的所有变量系数在0.1%的水平上与零有显著差异。另一方面,boosting支持的4个变量(var27、var32、var33、var34)不太显著:var27和var33在5%的水平上显著,而var32和var34不显著。然而,我们应该注意到,这4个变量的所有符号都符合我们的直觉,var32和var34并不显著(P值分别为20.89%和11.23%)。这是一种常见的多重共线性综合征,因为它增加了相关估计系数的方差,并使系数与零显著不同。返回表7中的回归,可以从这些变量的边际效应中获得一些见解。首先,在我们使用的任何方法中,var9、var11和var13始终是最好的变量(对于平衡随机林也是有效的,我们没有给出变量选择)。这些变量涉及有意或拒绝违反信贷额度的行为。var11的负号(被拒绝的违规数量)不应被视为违反直觉,因为var9(预期违规数量)的存在及其正系数在绝对值上大于var11。这表明,违规次数越多,无论是否被拒绝,都表明违约概率越高。我们使用违规数量而非违规数量来构建var13,以便更准确地获取银行顾问提供的每个客户的信息。这个变量似乎工作得特别好,因为上一年的同一变量var14也被逐步选择和套索所包含。这表明一线员工在区分可解决客户和不可解决客户方面获得了一些重要的经验和教训。

25
何人来此 在职认证  发表于 2022-6-1 02:12:51
这些经验可能很难正式表述,但确实很有价值,应该予以重视。其次,违约风险与收益风险密切相关。正如var24(累计月信用标准差)所示,收入越不稳定,企业违约的可能性就越大。Var31(第t个月的累积月度信用)也与信用相关,通过增加收入降低违约概率。信用,而不是借记,可能被认为是更严重的违约来源。Norden和Weber(2010)指出,借贷之间存在着非常强的相关性,后者应被视为前者的约束。计算Pearson相关性应该更合适,因为我们对logistic回归的线性相关性感兴趣。然而,对于缺失值或极值的消除等操作,这种相关性并不稳定。另一方面,Spearman关联在数据处理方面似乎相当稳定,这显示了基于树的方法的优势。

26
能者818 在职认证  发表于 2022-6-1 02:12:54
基于树的方法依赖于变量的有序属性,而不是基数属性。按变量类别名称重要性顺序选择boosting boosting AIC lassoEvolutionsBalancevar1 28var3 19var5 22var7 24Violationsvar9 3 YES YESvar10 29var11 1 YESvar12 26var13 2 YES YESvar14 27 YES YESvar14 27 YES Balance Vitality var15 13 Credits&Debitsvar16 15var17 25var18 12var19 20var20 var21 Riskbalance stabilityvar22 var23 YESCredits stabilityvar24 YES YESvar2511实际AR26 10var27 4 YESvar28 30var31 18 YES YESvar32 6 YESvar33 8 YESvar34 5 YESAttributesvar29 16 YES YESvar30 9 YES YES关于[t-23,t]的信息关于[t-11,t]的信息关于[t-23,t-12]表5–根据boosting、stepwiseselection和lasso在定义1的30个变量中进行变量选择。采用AIC标准(向前和向后)的逐步选择有8个变量。为了进行比较,我们选择了boosting中的8个最佳变量。对于Lasso,我们调整了参数λ,以便精确地得出8个非零系数。var27 var32 var33 var34var27 100.00%-18.39%77.80%92.58%var32-18.39%100.00%9.97%-30.37%var33 77.80%9.97%100.00%67.68%var34 92.58%-30.37%67.68%100.00%,VAR34系数标准偏差P值显著性(截距)-6.670e-01 1.294e-01 2.55e-07***var9 2.060e-03 1.469e-04<2e-16***显著性水平VAR11-1.626e-03 1.915e-04<2e-16******0.1%var13-2.129e+00 1.003e-01<2e-16*****1%var14-1.048e+00 1.080e-01<2e-16****5%var24 1.745e-01 2.739e-02 1.88e-10***。

27
大多数88 在职认证  发表于 2022-6-1 02:12:57
10%var29 1.508e-01 1.842e-02 2.64e-16***var30-1.649e-08 2.533e-09 7.48e-11***var31-1.111e-01 2.005e-02 2.98e-08***表7-使用逐步选择系数标准偏差P值显著性(截距)选择的变量进行逻辑回归-1.128e+00 7.204e-02<2e-16***var9 1.433e-03 1.146e-04<2e-16***癌症水平AR11-7.558e-04 1.587e-04 1.92e-06******0.1%var13-2.424e+00 7.207e-02<2e-16*****1%var24 1.955e-01 2.008e-02<2e-16****5%var27-2.493e-03 1.186e-03 0.0355*。10%var32 5.308e-05 4.224e-05 0.2089var33-1.534e-04 6.869e-05 0.0255*var34 1.149e-04 7.246e-05 0.1128表8–使用boostingSector农业服务商业行业结构选择的变量进行逻辑回归数值1 2 3 4 5表9–根据平均违约将部门变量转换为数字变量费用增加可能是违约的直接原因,但收入下降或不稳定可能更为根本。第三,不同的经济部门显然有不同的违约率。我们使用Shih(2001)中的一个定理构造了var29(扇区)。有关定理的详细信息,请参见附录D。该定理允许我们将分类树的分类变量转换为离散数值变量。扇区的相应数值如表9所示。值越高,平均违约率越高。表7中的Logistic回归也验证了这一点。第四,大型企业违约的可能性较小。他们比初创公司更成熟。

28
kedemingshi 在职认证  发表于 2022-6-1 02:13:00
商业银行有理由不愿意向初创公司贷款,因为在某些情况下,初创公司可能需要从风险资本或天使投资者那里寻求投资。6结论我们调查了公司支票账户与信用违约之间的关系,并表明账户信息在预测数据集违约方面优于传统使用的财务比率。这一结果符合我们对违约作为流动性现象的理解。支票账户信息反映了企业现金流的更直接和实时状态,是商业银行在企业市值不可用时的特权。银行可以利用规模经济,利用企业支票账户上的信息,对企业贷款做出合理决策。尽管这一主题很重要,但目前除了Norden和Weber(2010)、Mester等人(2007)和Jiménez等人(2009)之外,几乎没有其他文献。受他们工作的启发,我们研究了更广泛的解释变量,并通过统计学习方法系统地比较了不同数据集的性能。我们已经证明,这些方法,连同AUC标准,是比逻辑回归更准确和可靠的方法来测量数据集中包含的信息。虽然后者通常会受到多重共线性的影响,但机器学习方法(如随机林和boosting)分别利用这些变量,能够分离复杂的信息。通过使用randomforest和boosting,我们显著提高了预测精度。基于树的方法还有其他优点,例如对极值免疫。然而,我们应该特别指出,成功的统计学习过程是通过人类的专业知识实现的。

29
kedemingshi 在职认证  发表于 2022-6-1 02:13:03
有意义的经济变量必须首先基于原始核对账户信息创建,正如公司财务先驱基于资产负债表和损益表创建财务比率一样。我们还需要将这些变量标准化,以消除账户规模的影响。如我们所示,仅仅通过自动化程序创建包含相同级别简明信息的解释性变量在技术上是不可能的(某些人在认识论上是不可接受的)。定义1创建的30个变量需要通过消除大约一半有用的变量并添加其他潜在的重要指标来完善。但即使在这一早期阶段,人类专业知识在金融研究中的重要性也得到了说明。尽管如此,财务比率和管理问卷在预测信贷违约方面仍然很重要。通过将它们与支票账户数据相结合,该模型具有最佳的预测性能,并且优于仅使用一个数据的任何其他模型。这表明不同数据集的信息之间存在某种正交性:财务结构、可支持性和管理经验应与简化形式模型中的支票账户信息并行考虑。通过仔细的模型选择方法,我们展示了boosting在选择重要变量时的一些特殊性。我们使用了逐步选择给出的8个最重要的变量来获得违约机制的直觉。违反信用额度,无论是否被拒绝,都是即将发生违约的良好指标。此外,一线顾问似乎在区分可接受的违规行为方面有着显著的经验,这反映在违规行为的允许数量百分比上。

30
何人来此 在职认证  发表于 2022-6-1 02:13:06
虽然由于费用过高,第一眼就可以看到违约,但Nordenand Weber(2010)和美国一直关注信用的重要性。收入水平低以及收入不稳定,显著增加了违约率。我们的研究采用了严格的统计方法,以获得基于支票账户的良好预测模型,并通过归纳法确定数据中的关键指标。我们对这些对结果有重大影响的方法的机制进行了深入的讨论。这丰富了关于这一主题的稀缺文献,并可以为银行的企业贷款决策提供建议。进一步的研究可能会试图找出支票账户信息中的其他关键因素,或构建中小企业信用违约的结构模型。参考Edward I Altman。财务比率、判别分析和公司破产预测。《金融杂志》,23(4):589–6091968年。阿米尔·法提亚。利用神经网络进行信用风险破产预测:一项调查和最新结果。IEEE神经网络学报,12(4):929–9352001。威廉·海狸。财务比率作为失败的预测因素。《会计研究杂志》,第71-111页,1966年。Fischer Black和Myron Scholes。期权和公司负债的定价。《政治经济杂志》,第637-6541973页。Leo Breiman、Jerome Friedman、Charles J Stone和Richard A Olshen。分类和回归树。CRC出版社,1984年。陈超、刘德华和利奥·布雷曼。使用随机林学习不平衡数据。加州大学伯克利分校,第1-12页,2004年。乌萨马·法耶兹、格雷戈里·皮亚特斯基·夏皮罗和帕德拉里克·斯迈思。从数据挖掘到数据库中的知识发现。《AI杂志》,17(3):371996年。Yoav Freund,Robert E Schapire,et al.用一种新的boosting算法进行实验。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-24 02:42