楼主: nandehutu2022
774 21

[量化金融] 一个处理信用暂时退化的两阶段模型 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-5-6 10:00:58
在第二阶段,我们使用外部数据和内部违约之间的线性回归来调整信用评分模型给出的违约预测。巴西中央银行[4]和巴西地理与统计研究所[5]的外生数据系列也被用于评估违约演化中随时间变化的经济效应。我们使用了2004年1月至2011年12月的季度系列。然而,为了确定它们与内部违约之间的拟合程度,只考虑了2009年至2010年这段时间。我们使用决定系数r平方,在一维基础上评估这些序列与内部默认值之间的拟合。A.任务1–数据分析、清理和新特性考虑了数据集的一些重要方面,因为它们会影响未标记数据集中的性能。这些方面涉及:很大程度上的零值或缺失值——除了变量“在同一状态下的生活和工作”和“以前的信用体验”之外,二进制标志95%到100%集中在其中一个值中,这使得它们实际上不可行。同样的情况也发生在数字变量“家属人数”和“银行账户数量”中,这两个变量都有99%以上的零。剩下的变量是合理或完全填充的。异常值和不合理值——在分配给年龄在100到988岁之间的客户的应用程序中,变量年龄占0.05%。

12
可人4 在职认证  发表于 2022-5-6 10:01:01
在当前雇主的可变信用卡账单到期日、月收入和时间中,可以观察到标准范围以外的无形部分价值。不可靠和非正式的信息——在这个问题的背景下,特定条件放大了社会人口数据的可靠性。这种类型的记分卡通常基于客户提供的口头信息,在大多数情况下,没有认证可用。在85%的申请中,没有提供收入证明,75%的申请没有地址类型证明。客户很少或根本不关心提供准确的信息。金融业意识到了这种局限性。然而,在高度竞争的环境中,在保持业务的同时,几乎没有机会修改它们。因此,除了监管要求之外,没有一个参与者能够有效地克服数据限制。由于目前在巴西金融市场上没有这样的必要性,附属于这类模型的数据库在不久的将来可能会继续缺乏可靠性。对建模示例分布的偏见——最明显的偏见是可变月收入。价值观从一年转移到另一年。这很可能与最低工资的增加和通货膨胀有关。地理变量也存在细微差异,这可能与机构的地理扩张有关。

13
kedemingshi 在职认证  发表于 2022-5-6 10:01:04
在剩下的特征中,2009年和2010年的频率分布之间的相关性在99%到100%之间,这表明在分析期间有一个非常稳定的模式。数据清理和新特性——我们将数据处理的重点放在合理或完全填充的特性上。州、市和社区的字段包含自由文本,并接受了手动清理。记录少于或等于100条的班级被分配到一个新的班级“其他”。我们可以观察到,在不同的城市中可能有同名社区;因此,我们将这些新的净化场连接成一个新的特征。考虑到可变月收入的变化可能与最低工资和通货膨胀的增加有关,通过将当年的通货膨胀率乘以可变月收入计算出一个新的特征。数据转换——使用完整建模数据集中的证据权重(WoE)转换变量。     ,  其中g和b分别是属性中好的数量和坏的数量,g和b分别是人口样本中好的和坏的总数。麻烦越大,好客户的比例就越高。对于标称变量和二进制变量,我们计算了每个类的灾难。首先使用SAS Enterprise Miner对数值变量进行组合,然后手动调整以反映领域知识。在sodoing中,我们的目标是实现一系列不太暴露于过度拟合的特性。其中一个没有例子的类给出了一个平均值。同样的原则也适用于预期范围内的值(例如。

14
mingdashike22 在职认证  发表于 2022-5-6 10:01:07
信用卡账单到期日高于31日)。一维分析——使用信息值(IV)测量每个电位特性的强度   ,  其中n是特征中的属性数。Iv越高,特征的相对重要性就越高。在一维基础上,最重要的特征是年龄、职业、在当前雇主工作的时间、月收入和婚姻状况,信息值分别为0.368、0.352、0.132、0.117和0.116。剩余特征值小于等于0.084。相互作用项——利用变量每个属性中的几率,我们利用变量之间的相互作用项来模拟联合效应,计算出新的非线性特征。我们测试了六种组合,我们给出了表III.表III.测试组合的信息值组合IV  0.315  0.009  0.208  0.334  0.123    0.007B。任务2——变化的环境和时间序列分析这项工作旨在根据金融和经济环境中特定因素的运动,通过使用记分卡拟合估计的拖欠,为信用评分数据挖掘领域提出一项创新。我们在外生时间序列分析中进行了实证研究,见表二。在现有的外生系列中,我们预计这一系列可能会对个人的行为及其信用卡违约模式产生重大影响。表四。

15
能者818 在职认证  发表于 2022-5-6 10:01:11
BRAZILSeriesCorrelaR squareDefault/巴西信用卡财务收入的外部数据系列。8050.648巴西循环信贷违约。4910.241GDP-0.1680.028GDP年变化0。4850.236主要收入支付(国际收支平衡表,当前美元)0.7870.619贷款利率(%)0.1180.014实际利率(%)-0.0470.002收入、利润和资本收益轴(收入的%)-0.2560.065家庭最终消费支出(GDP的%)-0.7130.509私人消费-0.3650.1330通货膨胀率。7970.635失业率-0.1000.010消费者信心-0.2800.080。3810.145a。2009年至2010年内部违约与外部数据系列之间的相关性。b、 2011年第一季度记录了一次异常观察。由于我们无法确认该值的可靠性,我们选择用相邻季度的平均值来代替它。由于大多数可用的外部数据系列都是按季度更新的,我们考虑了所有这些系列的季度点数。虽然从2004年起就可以获得外部数据系列,但我们无法充分利用它们,因为内部数据仅适用于2009年和2010年。因此,我们将分析重点放在这段时间上,我们认为这段时间短,无法实现可靠的预测。巴塞尔协议II要求至少5年。在这种类型的分析中,使用更大的历史时期来捕捉一个或多个经济周期的不同阶段是合适的。因此,两年显然是稀缺的。然而,由于这次竞争需要一个准确的1年预测,我们的假设是,2011年,巴西将处于2009年和2010年经济周期的同一阶段。内部defaultseries在2009年和2010年遵循了非常不同的路径,图。

16
kedemingshi 在职认证  发表于 2022-5-6 10:01:14
这也阻碍了任何一种尝试。然而,在这两年中,违约率在第二学期略有上升。虽然这不是决定性的,但我们在预测场景中考虑了这种情况,我们将在下文中描述。图1。2009年和2010年的月度内部违约。一个经济周期可能持续几十年。确定一个经济周期是一项重要而非琐碎的任务,本文将不再进一步分析,因为它超出了本工作的范围。违约率2009年违约率2010年平均值2009年违约率2009年平均值26,92%2010年平均值27,63%15%20%25%30%35%40%1.2.3.4.6.7.10.12违约率为了找出内部违约和外部违约之间的潜在关系,我们计算了它们之间的关系,见表四。在分析期间,最佳系列是巴西信用卡财务收入的违约率,主要收入支出、家庭金融消费支出和通货膨胀率。由于只有8个观测值可用,线性回归应考虑单个自变量,以避免过度拟合。在预测情景中,我们只考虑了相关性最高的系列——巴西信用卡财务收入违约。尽管如此,回归中64%的r平方可以被认为是低回归。我们测试了三种预测情景,总结在表V中,并反复提交给排行榜。最终预测基于排行榜中距离最低的情景。表五。

17
可人4 在职认证  发表于 2022-5-6 10:01:18
任务2情景模拟中测试的预测情景#描述根据上一季度信用卡违约值自适应估计2011年每个季度的违约,并提交计算值。在新信息可用时,自适应地合并新信息。这可能得益于漂移检测,并建议实施纠正措施。根据上一季度信用卡的违约值自适应地估计2011年每个季度的违约,并提交平均值。由于不了解经济周期,因此本申请中未证实季度间漂移导致的任何修正。使用违约的中心趋势更合适。提交截至9月的平均年度违约率,过去两个月的平均违约率增加了1%。利用违约的中心趋势,调整月份被漂移的方向更为确定。四、 两阶段模型一些以前的研究建议将经济状况直接纳入回归记分卡[6]、生存分析[7]或过渡模型[8]。我们的方法是使用一个两阶段建模框架,以区分风险的两个维度——具体和系统。应使用记分卡从银行内部数据库中获取具体风险,并通过线性回归确定系统性风险的变动。最终默认预测是使用模型总体默认情况下的预期变化因子对初始分数进行调整的结果。A.任务1:信用评分结构基于逻辑回归(LR)、AdaBoost和广义加性模型(GAM)设计了几种标准分类模型,并进行了10倍交叉验证。

18
何人来此 在职认证  发表于 2022-5-6 10:01:21
特征被反复添加到模型中,直到测试中没有观察到性能提升。测量了四种不同的策略,改变窗口,并从输入集中消除噪音:高容量和多样性——使用整个建模数据集(2009-2010),以获得更多的容量和多样性。通过门-使用最接近通过门人群的样本,以减轻暂时性白化病的影响。我们测试了两个不同的窗口:2010年全年和2010年最后一个季度。12个模型的集合-使用2009年和2011年的相应月份,创建一个模型,在每年的每个月应用。我们的想法是减轻季节性影响带来的需求变化。开发了12个模型,并将其结果合并到最终评分中。清理——为了克服数据中存在的噪音,使用整个建模数据集创建一个模型(2009-2010);由于数据中存在噪声会破坏模型,我们删除了严重错误分类的示例,并在缩减集中重新训练模型。如果trueclass的预测后验概率小于0.05,我们考虑一个严重错误分类的例子。随着金融机构的扩张,排行榜和预测集应在离散变量中包含新代码(例如新的分支和地理代码)。这些案例无法从建模数据集进行训练,因为在扩展之前无法观察到它们。由于不知道扩展的性质和策略,我们选择了一个有根据的猜测——使用不熟悉代码的平均部分分数。在真实的环境中,这个任务通常会得到更好的信息,因为策略是事先知道的。B

19
mingdashike22 在职认证  发表于 2022-5-6 10:01:25
任务2:引入时间变化环境的影响在建模的第二阶段,我们在之前开发的记分卡中引入了时间变化环境的影响。记分卡违约的初始预测会根据违约预期变化的一个因素进行调整。如图2所示,0到1之间的任何截止点集合对应于批准的应用程序集合中的新调整默认率。图2。记分卡调整为违约的中心趋势。V.RESULTSTask 1——只有在测试集中结果最好的模型才被提交到排行榜。表六显示了建模数据集中最佳模型的预期违约结果的样本调整后的01020300 1违约率(%)。虽然测试了大量不同的配置,但我们在测试中仅给出AUC高于0.71的模型结果。这包括提交到排行榜的车型。表六:任务1中的最佳模型,测试集MethodPeriod TestLeaderboard AGAM2009-100.73200.7227GAM0中的AUC>0.71。71400.7131GAM2010(第四季度)0.7204n。a、 LR2009-100.7222n。a、 LR带清洗2009-100.7222n。a、 2009-10月LR,与2009-10月相比。72300.7140AdaBoost2009-100.7180n。a、 a.n.a.-不可用,因为该模型未提交到排行榜。排行榜上成绩最好的模型是基于广义相加模型,并使用数据集(2009年和2010年)。这个模型被提交到最终预测中。虽然我们在建模时测试了不同的时间框架,但很明显,对于这个应用程序来说,实现性能最佳的模型的关键是押注更多的示例和多样性。

20
可人4 在职认证  发表于 2022-5-6 10:01:29
从测试(2009-2010)到排行榜(2011)的拟议记分卡降级率为0.93%,这在实际应用中是可以接受的。通过调整不稳定变量(例如,基于通货膨胀率的月收入)和控制不熟悉代码的部分分数,可以部分控制退化。除此之外,其余大部分特征都相当稳定。任务2——该任务的结果如表七所示,表明当预测依赖于非常短的时间序列时,通过最简单的调整(违约的中心趋势)实现最佳拟合。在这个问题中,提交平均违约增强了违约拟合(场景2),通过调整漂移方向更确定的月份(场景3),进一步改善了拟合。表七。任务2的结果。情景(#)平均违约率距离D0。2933.160.2931.450.2940.83a。如果整个投资组合获得批准,2011年的年平均预测违约率。六、 结论从数据流中发现知识的理论模型适合处理信用评分模型的时间退化。其想法是使用自适应模型,在新信息可用时合并新信息。整合新信息也可能从漂移检测中受益,漂移的发生可能会建议对模型采取最终的纠正措施。财务问题的一些细节可能会使模型随着时间的推移变得相当稳定,这就是本研究中提出的记分卡的情况。静态学习环境是具有最佳辨别力的模型的基础。很明显,某些时间离散化在某些应用中可能会变得无用,并可能导致无意义或次优预测。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-15 09:28