信用评分中拒绝推理的深层生成模型 - 第3页 - 外文文献专区

21楼

发表于 2022-6-15 22:28:37

注意，在这种情况下y是已知的，因此我们只通过其相应的高斯分量进行反向传播，就像在模型1中一样。这由方程式16中的下标y规定。未标记数据：推导目标函数lRejection使用方程13和14中的因式分解，模型2中的无监督负下界具有以下形式-Lreject（x；θ，φ）=等式φ（z，a，y | x）hlogpθ（x，y，z，a）qφ（z，a，y | x）i=等式φ（z，a，y | x）[对数p（a）+对数p（y）+对数pθ（z | y）+对数pθ（x | z，y）- 对数qφ（a | x）- 对数qφ（z | x，y）- 对数qφ（y | x，a）]。（17）对于第i个观测值，方程式17采用以下形式，见附录B.5节，-Lreject（xi；θ，φ）=LaLzLaXla=1Xy=0πy | xi，ai，la`zXj=1（1+对数σφzj）-`zXj=1对数σθj，y+σφzjσθj，y+（uφzj- uθj，y）σθj，y+LzLzXlz=1对数N（xi | zi，lz，yla）+`aXc=1σφac+uφac-（1+对数σφac）+LaLaXla=1Xy=0πy | xi，ai，la(- log q（y | xi，ai，la））+logπi.（18）这里所有参数与-Laccept（x，y；θ，φ）。需要注意的是，类标签上的后验概率πy | x，a=[πy=0 | x，a（1- πy=0 | x，a）]取决于采样的辅助变量。最后，正如我们在模型1中所做的那样，我们在无监督的objectivefunction中包含术语log qφ（y | x，a），以利用已接受的应用程序。因此，模型2的最终目标函数isL=mxilacept（（x，y）i；θ, φ) - α·log E^p（x，y，a）[qφ（yi | xi，ai）]+nXjLreject（xj；θ，φ）。（19）我们通过在分布参数中添加下标a和z来扰乱符号。这有助于区分密度qφ（a | x）和qφ（z | x，y）中的参数。接受53 698（6 528）拒绝536 459测试（30%）16 109（1 958）数据池（70%）37 589（4 570）实验1A-3 104（1 502）R-30 996图3：表3中借贷俱乐部数据集实验中使用的数据分区。

22楼

mingdashike22

发表于 2022-6-15 22:28:41

括号中的数字是默认观察值的数量，括号中百分比中的数字是接受申请的比例。桑坦德数据集和表4中的实验遵循相同的逻辑，但在最后一次抽样（“实验1”框）中，我们根据需要对接受和拒绝的申请数量进行抽样。3.3.1模型2信用评分中的拒绝推理与模型1具有几乎相同的特征，但有两个新项目。首先，模型2近似两层潜在表示q（a | x）和q（z | x，y）。后验分布q（a | x）与客户数据x一起用于估计违约概率（方程式14）。通过这样做，模型2对信誉度的估计相对更具表现力。假设最近的表示法a捕捉到了数据的内在结构，因此它提供了相关特征，以增强分类器q（y | x，a）的性能。最后，请注意，q（a | x）被假定为多元高斯分布，因此我们使用重新参数化技巧（见第3.2节）从该分布中取样，即a=ua+σa 其中ua和σa是MLP中密度q（a | x）的输出。与模型1的第二个不同之处在于，数据生成过程p（x | z，y）以最近的变量z和类标签y为条件。这样做只是为了获得更好的训练稳定性。有关模型培训的更多详细信息，请参见第4.3节。4个实验和结果实验的目标是双重的。

23楼

大多数88

发表于 2022-6-15 22:28:44

首先，我们将我们提出的模型的性能与一系列代表信用评分拒绝推理最新技术的技术进行比较，包括三种经典的拒绝推理技术（重分类、模糊分组和增强[17]）和三种半监督机器学习方法（自学习[18]MLP、自学习SVM和半监督SVM[19]），在真实场景下保持两个真实数据集中的原始接受率。其次，为了更好地理解creditscoring拒绝推理模型的行为，我们测试了模型在不同场景中的性能，这些场景会改变接受和拒绝观察的数量。在这两种情况下，我们都包括两个有监督的机器学习模型（多层感知器（MLP）[20]和支持向量机（SVM）[21]），以测量拒绝推理的边际收益。4.1数据描述我们使用两个真实数据集，其中包含被拒绝和接受的应用程序。第一组数据集ispublicand由Lending Club的个人贷款申请组成，Lending Club是世界上最大的点对点贷款公司。我们复制了[23]中使用的数据样本，其中包括从2009年1月到2012年9月的36个月到期的应用程序。但是，我们不拆分数据模型1和模型2的代码可以在https://github.com/rogelioamancisidor/reject推断数据可以直接在借贷俱乐部的网站上获得，但需要用户登录。

24楼

kedemingshi

发表于 2022-6-15 22:28:47

我们在网站上获得了可用数据的完整版本https://github.com/nateGeorge/preprocess借贷俱乐部数据，每季度更新一次。Lending Club and Santander Credit CardSLP网络隐藏层数和维度SQ（z | x，y）[10 10]*，[10 20]，[10 30]，[10 50]，[100 70]***，[10 20 10]，[10 30 10]，[10 40 10]*，[10 50 10]，[60 90 60 60]****p（x |·）[10 10 10 10]，[10 20]，[10 30 30]，[10 40 10]，[10 40 10]***，[10 50 10]，[60 90 60]****p（z |；y）[10]*,**,***,****q（a | x）[50]、[10 10 10]、[10 20]、[10 30]、[10 40]*、[10 50]、[20 40]、[20 50]、[30 50]、[30 60]、[40 60]*****q（y |·）[50]、[60]、[70]*、[80]***、[100]***、[120]、[130]**参数/超参数值Z维度30、50*,**,****, 100***a尺寸30，50**,****β0.008**、0.01、0.025、0.14、1.1*、3****、8***表2：模型1和2以及两个数据集的超参数优化网格。括号内的数字指定了每个隐藏层中的神经元数量，即[10 10]表示两个隐藏层，每个层有10个神经元。最后，Superscript*和**分别为表3中使用的借贷俱乐部数据集显示了模型1和模型2的最终架构。同样，***和****分别显示了表3中使用的桑坦德信用卡数据集模型1和模型2的最终架构。在每年的子样本中设置，因为我们希望尽可能多地保留少数群体（y=1）的观察结果。因此，我们在实验中使用的数据集有53 698个接受的应用程序，包括6 528个默认值，以及536 459个拒绝的应用程序。即接受率为9.10%，违约率为12.16%。有关借贷俱乐部数据的更多详细信息，请参见附录中的表A1。第二组数据由桑坦德北欧消费银行提供，包括通过其互联网网站提交的信用卡应用程序。

25楼

kedemingshi

发表于 2022-6-15 22:28:50

这些申请是在2011年1月至2016年12月期间收到的。在此期间，桑坦德接受了126 520份申请，只有14993名客户最终成为违约客户。在此期间，被拒绝的申请数为232 898。因此，接受率为35.20%，违约率为11.85%。除了这两个数据集之外，我们在2012年9月和2016年12月之后分别为Lending Club和Santander Bank提供了两个小样本，用于使用贝塔校准方法生成校准良好的类别概率估计值【49】。这些样品不属于第4.2.4.2节“实验设计”中解释的实验设计。我们进行了两组不同的实验。在第一个实验装置中，我们保持原始接受率，但我们总共使用的观测值不超过34100个。为了构建该数据集，我们首先将原始数据分成70%-30%分别用于训练和测试。然后，我们对训练集中的多数类（y=0）进行下采样，直到它等于少数类（y=1）的观察次数。为了获得正确的验收率，这需要随机选择两个类别标签。请注意，测试数据集保持原样，即保留原始默认速率。最后，我们随机选择拒绝申请的数量，以确保这些申请以及balancedtraining样本不超过34100个观察值，见图3。在第二组实验中，我们分析了在保持相同数量的拒绝（接受）申请的同时，改变接受（拒绝）申请数量的影响。

26楼

大多数88

发表于 2022-6-15 22:28:53

我们遵循与第一个实验中相同的方法，将数据集拆分为一个训练和测试数据集，对训练集进行降采样，并随机选择拒绝应用程序的数量。对于Lending Club数据集，我们使用表A1中的所有变量来训练所有模型，而对于Santander数据，我们使用正向选择方法来选择分类、模糊划分和扩充方法中包含的解释变量。对于其他模型，我们使用所有变量。接受和拒绝的申请数量与[23]中的不完全相同，但变量统计非常相似，默认趋势相同。详见表A1。这样做是为了与S3VM进行公平比较，S3VM由于内存需求而不能扩展到更大的数据集。对于34 100次观察，S3VM需要123GB的内存来估计内核矩阵。本节不包括S3VM，因为评估本节中的每个场景大约需要356小时，我们总共评估了12个不同的场景。此外，它还有前面提到的内存限制。同样，在本节中，自学习SVM中的操作程序也不可行。这三种方法都是基于logistic回归。

27楼

可人4

发表于 2022-6-15 22:28:56

因此，正向选择方法可防止LogisticRetression过度拟合，并避免其优化的数值问题。Lending Club（LC）Santander信用卡（SCC）RuntimeAUC GINI H-measure Recall Precision AUC GINI H-measure Recall Precision LC SCCMLP 0.6273 0.2547 0.0535 0.4454 0.1738 0.7091 0.4183 0.1326 0.7909 0.1772 00:01.28 00:04.53SVM 0.6284 0.2567 0.0543 0.4632 0.1783 0.7388 0.4777 0.1689 0.7997 0.1895 00:06.59 00:14.42重新分类0.5784 0.1567 0.0227 0.4906 0.1493 0.6415 0.2830 0.0625 0.99890.1187 00:05.04 00:01.15模糊包裹0.6198 0.2560 0.0540 0.4598 0.1772 0.6791 0.3582 0.0957 0.8676 0.1541 00:03.82 00:08.45增强0.6219 0.2558 0.0541 0.4581 0.1777 0.6761 0.3523 0.0923 0.8735 0.1524 00:13.07 00:15.25自校准MLP 0.5868 0.1737 0.0326 0.4504 0.1570 0.6726 0.3451 0.0877 0.8502 0.1519 00:18.80 00:20.53自学习支持向量机0.6206 0.2551 0.0535 0.4957 0.1731 0.7266 0.45320.1529 0.8494 0.1725 03:25.89 05:08.36S3VM 0.6201 0.2402 0.0481 0.0000 NA 0.6520 0.3040 0.0733 1.0000 0.1185 09:17.00 06:20.12模型1 0.6294 0.2588 0.0554 0.4540 0.1788 0.7394 0.4788 0.1678 0.8326 0.1848 10:48.19 04:12.16模型2 0.6363 0.2755 0.0632 0.4688 0.1825 0.7431 0.4851 0.1764 0.6282 0.2303 12:24.06 05:54.33表3：保持原始验收比的模型性能，即借贷俱乐部（LC）为9.10%，桑坦德信用卡（SCC）为35.20%。训练数据集通过对多数类进行下采样来实现平衡，用于计算召回率和精确度的阈值基于测试数据集中的经验默认率。

28楼

何人来此

发表于 2022-6-15 22:29:00

最后两列显示了一次交叉验证的运行时，格式以mm:ss表示。cs，其中mm、ss和cs分别表示分钟、秒和厘米。EPOCH0.6200.6250.6300.6350.640AUCLEND ClubAUC CV-1AUC CV-2AUC CV-3AUC CV-4AUC CV-5AUC CV-6AUC CV-7AUC CV-8AUC CV-9AUC CV-10EPOCH0.7250.7300.7350.7400.745AUCSantander Credit CardsAUC CV-1AUC CV-2AUC CV-3AUC CV-4AUC CV-5AUC CV-6AUC CV-7AUC CV-8AUC CV-9AUC CV-10图4：左面板显示了借贷俱乐部的AUC绩效10次交叉验证（CV）中的数据集，右侧面板显示桑坦德银行数据集的性能。两个图都对应于模型2。在表A2中。最后，我们使用网格搜索进行超参数调整，并对模型1和模型2进行10次交叉验证。MLP和SVM的自训练方法以MLP和SVM的最佳结构作为基础模型。表格A3.4.3中给出了网格搜索的详细信息模型实施和培训模型1和模型2在Theano【50】中实施。我们在所有隐藏层中使用softplus激活函数，在所有输出层中使用线性激活函数估计u和σ。对于分类器qφ（y |·）中的输出层，我们使用softmax激活函数。此外，我们使用学习率等于1e-4和5e-5的Adam优化器[51]分别对模型1和模型2进行训练。Adam优化器中的restof参数是原始文件中建议的默认值。在所有实验中，模型1和模型2均使用L=1和La=1。最后，在训练和测试之前，这两个数据集都是标准化的，类标签y是一个热编码的。表3实验中使用的模型架构如表2所示。值得一提的是，深度生成模型通常很难训练[52，53]。

29楼

能者818

发表于 2022-6-15 22:29:04

模型1和模型2的培训在某些情况下变得不稳定，特别是对于我们改变接受和拒绝申请数量的实验。此外，它对初始权重敏感。因此，我们使用变分自动编码器[45]对模型1的qφ（z | x，y）和pθ（x | z）中的权重进行预训练。同样，我们对模型2中的所有权重θ和φ进行预热。在这两种情况下，我们初始化了[54]中建议的MLP权重。我们还通过在类标签y上调节pθ（x | z，y），在模型2中实现更稳定的训练。借出俱乐部接受的申请被拒绝的申请否。观察200 600 1200 000 6000 All 30 997 100 000 200 000 300 000 400 000 All（0.04%）（0.11%）（0.22%）（0.37%）（1.11%）（1.67%）（0.64%）（0.20%）（0.10%）（0.07%）（0.05%）（0.04%）MLP 0.6002 0.6236 0.6237 0.6304 0.6299 0.6307 0.6037 0.6037 0.6037 0.6037 0.6037 0.6037 0.6037 SVM 0.6039 0.6267 0.6253 0.633 20 0.6302 0.6309 0.6054 0.6054 0.6054 0.6054 0.6054 0.6054 0.6054重新分类0.5786 0.5785 0.5812 0.58530.5806 0.5816 0.5616 0.5785 0.5783 0.5574 0.5693 0.5779模糊包裹0.6017 0.6240 0.6232 0.6295 0.6297 0.6302 0.6041 0.6026 0.6018 0.6031 0.6073 0.6006增强0.6017 0.6216 0.6207 0.6301 0.6295 0.6304 0.6023 0.6028 0.6010.5967 0.5953 0.5979自我勒宁MLP 0.5824 0.5728 0.5734 0.5675 0.5858 0.5631 0.5640 0.5485 0.5706 0.5715 0.5758 0.5703模型2 0.6175 0.6269 0.6310 0.6344 0.6381 0.64040.6112 0.6075 0.6091 0.6107 0.6121 0.6175运行时自学习MLP 00:20:36 00:26:14 00:29:31 00:29:23 00:31.39 00:35:11 00:02.10 00:05:02 00:09:50 00:15:01 00:18:02 00:23:36型号2 02:39:02:41:75 02:55:19 03:24:13 03:42:17 04:03:10 00:14:18 00:38:07 01:09:02:48 02:00:54 02:39:02表4：左面板：模型性能，用AUC测量，作为接受应用的函数。在左边的六个实验中，我们使用了所有536459个被拒绝的应用程序。

30楼

nandehutu2022

发表于 2022-6-15 22:29:07

右面板：模型性能，用AUC测量，作为被拒绝应用程序的函数。在右边的六个实验中，我们只使用了200个被接受的应用程序。括号中的数字是每个实验的接受率。最后两行显示一次交叉验证的运行时，格式为hh:mm:ss，其中hh、mm和ss分别表示小时、分钟和秒。我们不包括第一个五个模型的运行时，因为表3中运行时的差异可以忽略不计。4.4基准拒绝推断表3比较了模型1和模型2在数据集中使用原始接受率时与其他模型的性能。可以看出，模型1和模型2在AUC、基尼、H测度和精度方面均优于所有监督和半监督模型。我们的研究结果支持了之前的研究结果，即重新分类、模糊分组和增强方法不会改善模型性能。重新分类方法始终是最差的模型。此外，这些自训练方法并没有改善基本模型MLP和SVM的性能。最后，S3VM的性能明显低于桑坦德信用卡数据集的基本模型。我们使用Platt标度方法[55]从SVM和S3VM中获得（伪）默认概率。令人感兴趣的是，我们无法估计借贷俱乐部数据中S3VM的召回率和准确率，因为估计的违约概率集中在平均值附近，实际上没有离散度，见表A4。S3VM估计所有应用程序的违约概率低于Lending Club数据集中的违约率，高于Santander数据集中的违约率。模型2在除召回外的所有衡量指标上都优于模型1。

[量化金融] 信用评分中拒绝推理的深层生成模型 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群