楼主: 何人来此
1078 33

[量化金融] 支票账户活动与企业信用违约风险 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-1 02:12:06
附录C详尽解释了我们模型中最重要的参数。3组织支票账户数据:三种方法在当前文献中,处理支票账户数据的方法并不成熟,因为我们可以找到金融结构数据。在后一种情况下,公司财务表明了一些特别有用的比率,如营运资本/总资产、留存收益/总资产、市值/总债务等(Ross et al.(2008))。基于支票账户数据定义新功能是我们研究的中心问题。我们尝试了以下三种方法。它们将与三种不同的统计方法(逻辑回归、随机森林和boosting)相结合。3.1变量定义1(基于EconomicIntuition的连续变量)该定义受Norden和Weber(2010)的启发。在每年年底(我们注意到时间t),我们将解释变量default定义为下一年破产的二元变量。解释变量是根据过去两年的月度账户变量创建的。这30个变量列在附录A中,从数学上可分为四类:一个时期(一年或两年)开始与结束之间的特征差异(如余额、每月累计积分);时间t时该特性的值;该特性在一定时期内的标准偏差;企业属性(年销售额、行业)。其基本思想是使用库存和流量变量对某一特征进行完整且简洁的描述。此外,标准偏差(例如每月累计信用)允许我们量化与不稳定收入相关的风险。企业规模可能会以一种不受欢迎的方式对模型产生重大影响。

12
何人来此 在职认证  发表于 2022-6-1 02:12:09
一家公司可能比另一家公司拥有更高的余额,只是因为它更大:这种更大的余额并不“反映”更大的违约概率。Norden和Weber(2010)将信贷额度作为德国环球银行公司客户的标准化变量。然而,这个变量在我们的研究中并不可用。因此,我们需要找出另一个合适的归一化变量。一个建议是使用资产负债表或损益表上的信息,如totalsales。但大型企业可能会在多家不同的商业银行开立账户,仅反映每个账户中的部分现金流信息。因此,账户规模与企业规模之间存在差异。为了获取账户规模,我们需要在账户内部设置一个变量,以反映账户的正常活力水平。过去两年的平均月度累计信贷符合规定的标准,并用于规范与账户规模成比例的变量。直观地说,在总资源意义上,每月累计积分等于支票账户中的总销售额。3.2变量定义2(自动构建的变量)以及定义1中,我们仍然使用过去一年的账户信息来预测未来一年的违约情况。但统计方法中使用的解释变量是以一种更“计算机科学”的方式构建的。我们没有使用上述经济直觉来组织原始信息,而是依靠自动方法来构建模型输入。50个变量首先从rawmonthly信息中恢复,然后使用四个基本算术运算相互作用。加上一些原始变量,数据集总共包含大约5000个变量。应该注意的是,这些组合通常无法直观地解释。

13
kedemingshi 在职认证  发表于 2022-6-1 02:12:14
虽然可能会对“每月平均余额/有意违规的累计数量”给出一些牵强的解释,但要解释其他变量要困难得多。有人可能会说,简单的算术交互无法耗尽原始信息的可能有意义的组合,这使得这种方法不具有代表性。然而,首先应该注意的是,对于一台普通计算机来说,使用5000个变量进行升压在计算上已经很昂贵了。在实践中,我们为每种算术交互启动boosting,并根据它们对基尼指数的贡献来选择最重要的算术交互。然后使用这些变量对大约200个变量进行最终和较轻的增压。其次,从计算角度来看,很难穷尽最有意义的组合。假设我们想在定义1中自动创建30个变量。这些变量基于10个以上的基本月度变量(例如,TCREDIT、每月违规次数),即如果我们将当月考虑在内,则超过120个变量。Var16是时间t和t-12之间的TCREDIT差异(减去2个变量),而var9是一年内每月违规次数之和(12个变量之和)。这个简单的例子表明,对于一个新变量,参与原始月度变量的数量没有限制。也就是说,120个变量中的任何变量都可以包含在组合中或从组合中排除。可能的组合形式的数量是天文数字:2,即使我们只允许一个算术运算,例如加法。更不用说其他形式的行动了。第三,没有理由界定一套先验的合理操作。例如,TCREDIT(var24)标准差的使用是基于收入稳定性的直觉。

14
可人4 在职认证  发表于 2022-6-1 02:12:16
然而,如果我们用纯数学的方法研究这个问题,那么在合理的运算集中包含一个比窦、余弦或其他简单函数更复杂的先验运算是不合理的。3.3变量定义3(基于经济直觉的离散变量)与定义1类似,该定义也具有经济解释力。相反,我们创建了5个高度离散化的变量。其中四个是二进制的,第五个有三类。附录B.3.4性能比较中列出了这些变量。表3给出了通过测试AUC测量的性能。我们通过AIC和boosting变量重要性分别在第1组和第3组中选择了20个最佳变量。第2组中的5个最佳变量是根据boosting中变量的重要性选择的。尽管变量选择方法不同,但第2组中的所有变量都包含在第1组中。在第3组的20个变量中,有三个变量不能用于大多数观察(>50%),对于随机森林和logistic回归,这三个变量被消除。我们可以注意到,除了第4组外,平衡随机林和boosting总是优于logistic回归。(不平衡随机森林相对于平衡随机森林的失败正是对不平衡数据进行分层的原因。)这一结果显然有利于机器学习方法在数据默认预测中的应用。

15
可人4 在职认证  发表于 2022-6-1 02:12:20
但为什么boosting在第4组的表现与logit相同?对于该组,logit甚至超过了balancedDataDe定义1定义2定义3定义中的变量总数30 5000 5第1组第2组第3组第4组第20(17)5组中使用的变量数量5测试AULogit 70.87%74.42%74.64%74.09%不平衡随机林78.41%71.96%75.31%46.81%平衡随机林80.02%76.35%76.67%72.46%79.66%77.46%78.13%74.24%表3——logit、random forest和Boosting中四组账户数据(3个定义)的AUC测试。第1组和第3组中的20个变量分别由AIC和变量重要性在boosting中选择。第2组中的5个最佳变量是根据变量在boosting中的重要性来选择的。第2组中的所有变量都包含在第1组中。在第3组的20个变量中,有三个变量不适用于大多数观察(>50%),在随机森林和逻辑回归中被消除。随机森林。在我们看来,离散化是造成这种情况的原因。虽然对逻辑回归中的连续变量进行离散化是一种常见的方法,因为这会在线性框架内造成给定解释变量的某种非线性,但这也会减少其中包含的信息。离散化对于不平衡随机森林尤其有害。AUC=46.81%表明其表现比随机分布的分类更差,应视为病理学。甚至平衡随机森林的表现也比logistic回归差。事实上,随机森林中生长的单株树通常非常深(深度>1000,默认设置为我们的数据)。因此,分类能力与变量允许的潜在拆分数量密切相关。

16
可人4 在职认证  发表于 2022-6-1 02:12:23
分类树中特定节点的拆分可以看作是一个自动离散化过程。最好让树根据优化标准自行选择分割点,而不是先验选择。至于助推,树木通常很浅(在我们的环境中,深度=5)。正如Friedman等人(2001)所指出的,迄今为止的经验表明,4<=深度<=8在提升环境中效果良好,结果对该范围内的特定选择相当不敏感。在任何情况下,不太可能需要大于10的深度。这可能表明,boosting在很大程度上依赖于变量的潜在分裂能力,从而降低了对离散变量的敏感性。事实上,使用树桩(深度=2)可以有效地进行良好的预测。使用定义1中的所有30个变量,深度=2和深度=5的AUC分别为79.47%和79.82%。(然而,应该注意的是,交叉验证验证的最佳轮数在深度=2的情况下更高。深度=2和深度=5的轮数分别为2811和997,其他参数根据附录C确定。)在M树桩的情况下,加性逻辑回归模型变为:logP(y=1 | x)P(y=0 | x)=MXm 1αMXm∈ {x,x,…,xp},p是解释变量的数量(4),注意M通常比p大得多。在上述情况下,M/p的比率约为93,这意味着平均为每个连续解释变量创建93个虚拟变量。这些假人的线性组合可以很好地逼近任何普通非线性函数。当深度>2时,将近似推广到多元函数。因此,boosting优于logistic回归的优点似乎是前者考虑非线性的能力。

17
nandehutu2022 在职认证  发表于 2022-6-1 02:12:26
这清楚地解释了为什么如Friedman等人(2001年)所述,增压主要是一种减少偏差的方法。boosting和balanced random forest的出色表现是否也暗示了它们在识别丰富数据集方面的优势?比较第1组和第3组,我们可以注意到第3组的logit AUC ishigher,而增强AUC较低。如果我们在预测的情况下相信逻辑回归,那么我们应该得出结论,第3组比第1组包含更多的信息,并且机器学习方法(如boosting)在区分丰富数据集和前一组数据集时不可靠。然而,看看第二组,我们可以很容易地推翻这个结论。第2组的logit AUC与第3组几乎相同,而第2组包含的信息明显少于第1组,因为第2组中的所有变量都包含在第1组中。相反,第1组低logit AUC的合理解释应该是解释变量之间的多重共线性(James et al.(2013))。相比之下,Boosting和random forest通过单个变量分割每个节点,并且不应受到萦绕不去的多重共线性的影响。变量越少(第2组),logit的预测精度越高。这种现象可能表明logitcan无法很好地“消化”丰富的信息,因为其限制性的线性形式。因此,使用机器学习方法的AUC作为数据集中包含的信息的度量更可靠。boosting和logistic回归之间的密切关系解释了一些乍看起来可能很奇怪的结果。与第1组相比,第3组的logit AUC更高,应通过模型选择方法进行解释:“良好变量”在boosting意义上通常应为logit意义上的“良好”。

18
nandehutu2022 在职认证  发表于 2022-6-1 02:12:29
因此,毫不奇怪的是,从5000个变量中选择的20个变量在logit中比从30个变量中选择的20个变量效果更好。另一方面,在平衡随机林中,相同变量的AUC低于boosting(76.67%对78.13%)。这是否意味着随机森林在预测方面比推进更糟糕?如果我们看表4,balancedrandom森林和boosting通常具有相同的预测能力。第3组和第2组之间的差异应通过模型选择方法进行解释。这些变量是根据它们对随机森林的促进作用和自然效应来选择的。这些现象提出了普遍有价值的选择方法存在的问题,即“好”变量对于任何机器学习方法都同样好,而不仅仅是对于一种或几种与选择过程中使用的方法相同或接近的方法。虽然这个问题很难回答,但我们至少可以得出结论,变量应该基于经济直觉进行先验定义(定义1),而不是通过纯粹的“计算机科学”方式(定义2),并在后期通过机器学习方法进行选择。除了变量选择中的偏差外,第3组中自动创建的变量所包含的信息也比第1组少(第3组中平衡随机林和boosting的AUC都较低)。至少对于我们的数据而言,经济上有意义的变量构造不仅使我们能够解释解释变量的边际效应,而且还能以更简洁的方式掌握信息。讨论可以扩展到有争议的认识论讨论,这些讨论超出了本文的范围。

19
何人来此 在职认证  发表于 2022-6-1 02:12:32
但至少在我们看来,正如Williamson(2009)指出的那样,虽然有人希望机器学习能够“闭合归纳循环”,即自动化数据收集、假设生成、进一步数据收集、假设重新制定的整个循环过程…-目前的现实是,机器的成功是与人类的专业知识相结合的。4支票账户信息、财务比率和管理信息的组合违约预测的传统简化形式方法主要关注企业的财务结构(Altman(1968)、Beaver(1966)和Ohlson(1980)),因为财务结构在很大程度上反映了企业的可解性,相对而言,它比实时会计信息更容易获得。更重要的是,在简化形式的方法中,由于我们只是尝试将模式与数据相匹配(Fayyad et al.(1996)),而不太担心因果关系,内生性问题不是主要关注的问题。但一旦我们想得到一些因果解释,金融结构数据可能会受到内生性的影响,应该仔细地解释为信贷违约的“原因”。另一方面,我们应该注意账面价值和市场价值之间的差异,以及与这种差异相关的会计原则(Ross et al.(2008))。对于中小型企业来说,它们的市场价值根本无法获得,因为它们通常不出售任何已上市的证券,而它们的账面价值是历史性的,并且受到会计操纵。商业银行在分析信用违约方面既有必要性,也有优势。拥有公司账户信息有助于他们获得更直接和“坦率”的公司账户形象。不仅信息可能更可靠,而且更实时。

20
kedemingshi 在职认证  发表于 2022-6-1 02:12:35
资产负债表和损益表每年由企业恢复一次,而支票账户信息理论上可以每天恢复一次。在实践中,为了简化,我们使用月度变量作为原始变量。这使得商业银行能够更频繁地监督企业借款人的可解决性。鉴于支票账户信息的优势,我们应该期望基于支票账户数据进行更好的预测。表4的前两列显示了这一点。基于平衡随机森林和boosting中账户数据的AUC明显大于基于财务和管理数据的AUC。(有人可能会说,这种优势仅仅是由于更多的解释性变量。事实上,在相同数量的变量(11)下,账户数据的AUC增长率为79.19%,与20个账户变量(79.66%)的AUC几乎相同,显著大于财务和管理变量(76.17%)。但这并不表明财务报表在违约评估中的无用性。事实上,如果我们将第1组和第5组结合起来,得出包含所有三个组成部分(财务比率、企业调查问卷和支票账户数据)的数据,则测试AUC是有史以来最高的(84.24%)。(再一次,有人可能会争辩说,AUC较高只是因为变量较多,而不是不同信息来源之间的正交性。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-24 02:40