信用评分中拒绝推理的深层生成模型 - 第2页 - 外文文献专区

11楼

发表于 2022-6-23 20:53:20

结果表明，贝叶斯界崩溃方法比增广模型和Heckman模型表现更好。在本研究中，我们提出了一种新的贝叶斯推理方法，用于信用评分中的拒绝推理，该方法使用高斯混合模型和与[24，36]不同的方法，因为我们的模型基于变量推理、神经网络和随机梯度优化。我们提出的方法的主要优点是：（i）对被拒绝的应用程序的推断基于对后验分布的近似，以及对被拒绝的应用程序可能采取的两种可能结果的精确列举，（ii）模型使用客户数据的潜在表示，其中包含强大的信息，（iii）深度生成模型可扩展到大型数据集。自训练算法是一种迭代方法，其中对未标记数据进行高度一致的预测，以重新训练模型。此过程重复次数与用户指定的次数相同。对这种方法的主要批评是，它可以强化糟糕的预测。【23】中使用的模型最初由【44】开发，使用分枝定界方法来解决半监督支持向量机中面临的混合整数约束二次规划问题。这种方法减少了训练时间，使其适用于大型问题。该模型最初在Sebastiani和Ramoni（2000）“使用boundand collapse对缺失数据进行贝叶斯推断”中提出。3个深层生成模型【45，46】给出了深层神经网络变分推理的原理。在此基础上，[7]提出了一种用于半监督学习的广义概率方法。

12楼

nandehutu2022

发表于 2022-6-23 20:53:23

在第3.2节和第3.3.3.1节中介绍了两种新的拒绝推理模型之前，我们将在第3.1节中解释这种方法，数据集D={Daccept，drObject}由n个（标记的）接受的应用程序Daccept={（x，y），…，（x，y）n}和m个（未标记的）拒绝的应用程序drObject={xn+1，…，xn+m}组成，其中x∈ R′xis特征向量和yi∈ {0，1}是类别标签或贷款结果，如果客户偿还了贷款，则y=0，否则y=1。此外，生成模型假设潜在变量Z∈ R`Z控制x的分布。生成模型的目标是获得用于信用评分和贷款结果的数据的联合分布p（x，y）。然而，这种分布很难处理，因为它需要对整个潜在空间进行积分，即Rp（x，y，z）dz。此外，p（x，y）的难处理性通过关系p（z | x，y）=p（x，y，z）Rp（x，y，z）dz转化为z的可控制后验分布。（1）因此，我们用推理模型q（z | x，y）近似真后验p（z | x，y），并最小化Kullback-Leibler（KL）发散度KL[q（z | x，y）| p（z | x，y）]，使近似尽可能接近真密度。KL[q（z | x，y）| p（z | x，y）]项、目标函数Laccept和密度p（x，y）通过以下表达式log p（x，y）=Eq（z | x，y）[log p（x，y）]=Eq（z | x，y）hlogp（x，y，z）p（z | x，y）q（z | x，y）i=Eq（z | x，y y）hlogp（x，y，z）q（z | x，y）i+Eq（z | x，y）hlogq（z | x，y）p（z | x，y）i：=-Laccept（x，y）+KL[q（z | x，y）| p（z | x，y）]。（2）考虑到方程2中的KL散度是严格正的-Laccept（x，y）是对数p（x，y）的下界，即对数p（x，y）≥ -Laccept（x，y）。

13楼

mingdashike22

发表于 2022-6-23 20:53:27

14楼

kedemingshi

发表于 2022-6-23 20:53:30

（4）此外，深层生成模型通过多层感知器（MLP）网络将方程2和3中密度函数的参数参数化。例如，如果z | x，y是具有对角协方差矩阵的多元高斯分布，我们使用符号p（z | x，y）~ N（z | x，y；u=fθ（x，y），σI=fθ（x，y）），（5），其中u∈ R’zandσ∈ R`z，指定高斯分布的参数由一个用f（x，y）表示的MLP网络参数化，该网络具有输入数据x，y和权重θ。因此，目标函数的优化与MLP中的权重有关。另一种表示法是简化相应分布中的下标θ，即pθ（z | x，y）。最后，请注意，[24，37]中使用的EM算法不能用于这种情况，因为它需要计算p（z | x，y）的期望值，这很难处理。其他变分推理技术，如平均场或随机变分推理，确定每个数据点xi的ui和σi的不同值，这在计算上很昂贵。类似地，传统EM算法需要在更新参数之前计算整个数据集的预期w.r.t。因此，深度生成模型利用数据x（MLP网络）的复杂函数来估计最新变量z的最佳可能值。这允许用MLP权重θ的更有效优化来代替点特定参数ui和σi的优化。后者表示摊销推断[48]。3.2模型1：生成和推理过程在本节中，我们在[7，11]中所做工作的基础上，开发了一个新的半监督模型，该模型具有用MLPs参数化的aGaussian混合模型。高斯混合诱导了一个灵活的潜在空间，从而提高了下限的近似值[8，16]。

15楼

可人4

发表于 2022-6-23 20:53:33

16楼

大多数88

发表于 2022-6-23 20:53:36

进一步，我们推导了信用评分拒绝推理新方法下有监督和无监督数据的下界。标记数据：推导目标函数LacceptWe使用方程2和方程6中生成过程的因式分解来推导可接受数据集Daccept的下界。因此，扩展下界中的项，我们得到Eqφ（z | x，y）hlogpθ（x，y，z）qφ（z | x，y）i=Eqφ（z | x，y）[对数p（y）+对数pθ（z | y）+对数pθ（x | z）- 记录qφ（z | x，y）]，（8）并根据期望值，参见附录B.2节，我们发现单个（受监督）数据点的负下界，即-Laccept（{x，y}i；θ，φ）=h`zXj=1（1+logσφj）-`zXj=1对数σθj，y+σφjσθj，y+（uφj- uθj，y）σθj，yi+logπi+LLXl=1log N（xi | zi，l）。（9）这里` zi是z的维数，σ·jandu·jare分别是σ·和u·的第j个元素，πi是类标签yi上的优先分布，L是zi的数量，L是从qφ（z | x，y）中提取的样本数。我们使用重新参数化技巧zi，l=uiφ+σiφ l、在哪里l~ N（0，I）和表示元素Wise乘法，通过σ·和u·反向传播。因此，等式9中的最后一项是N（xi | zi，l=uiφ+σiφ l）我们使用qφ（z | x，y）来采样uiφ和σiφ。注意，由于在这种情况下y是已知的，我们只需要在MLP参数化GMM中通过其相应的高斯分量进行反向传播。换句话说，如果yi=0，随机梯度优化仅更新图2中第一个分量的|θyandσθyf中的所有权重。这由方程式9中的下标y规定。未标记数据：推导目标函数lReject在这种情况下，我们将未知标签y视为潜在变量，并用q（y | x）近似真实后验分布。假设q（y | x）~ 伯努利（·）是一个相对容易的分布，我们在无监督下界中取显式期望。

17楼

mingdashike22

发表于 2022-6-23 20:53:39

18楼

能者818

发表于 2022-6-23 20:53:42

注意，在这种情况下，我们通过列举后验参数πy | x的两个可能值（y=0和y=1）来获得对潜变量y的期望，这也意味着我们需要在θσyanduθy中反向传播两个分量，一次一个，见图2。我们训练模型1交替目标函数l=nxilacept（（x，y）i；θ, φ) - α·log E^p（x，y）[qφ（yi | xi）]+n+mXjLreject（xj；θ，φ），（12），其中E^p（x，y）是经验分布。请注意，我们将术语log E^p（x，y）[qφ（yi | xi）]引入监管下界，以利用已接受的应用程序并培训最佳可能的分类者。术语α=β·m+nn控制监督损失函数中分类的重要性，其中m和n分别是被拒绝和接受的观察数，β只是一个比例因子。3.2.1使用模型1进行信用评分时的拒绝推理不仅学习信用评分中使用的客户数据的分布p（x | z），而且还学习其潜在表示p（z | x，y）。这种潜在的表示反映了客户数据的内在结构或语义。此外，模型1近似于后验类标签分布q（y | x），我们使用后验类标签分布估计新应用的默认概率。该概率由后验参数πy | x中的互斥结果给出，后验参数πy | x由输出层具有softmax激活函数的MLP参数化。模型1在信用评分中拒绝推理的最重要特征是，通过考虑贷款在授予信用的情况下可能采取的两种状态y=1和y=0来评估未知的可编辑性（方程式10）。

19楼

kedemingshi

发表于 2022-6-23 20:53:46

这意味着该方法明显不同于拒绝推理的所有外推方法。此外，由于它依赖于后验分布的近似，因此它不像预期最大化算法那样具有限制性。可以看出，等式12包括项KL[qφ（z | x，y）| pθ（z | y）]。然后，目标函数的优化迫使qφ（z | x，y）尽可能接近pθ（z | y），我们将其建模为高斯分布的混合。这样做的第一个动机是，接受和拒绝的应用程序的数据由两个不同的过程生成，正如【24】中所述。其次，该混合模型生成一个灵活的潜在空间，这有助于改进模型1中推理过程的近似性。最后，等式12中的目标函数包括密度p（z | y）和p（x | z）的MLP权重θ，以及密度q（y | x）和q（z | x，y）的φ。这些都是模型1中的权重，在监督和非监督损失中都存在。因此，随机梯度优化联合更新这些权重，并估计方程6和7中的不同参数u、σ和π。在实践中，当给算法提供一个标记的（可接受的）观测值时，反向传播算法中的损失函数是Laccept（（x，y）i；θ, φ). 类似地，在处理未标记（拒绝）观测时，损失函数为Lreject（xj；θ，φ）。在任何情况下，由于同一MLP同时处理接受和拒绝的应用程序，因此在每次迭代时都会更新所有MLP权重θ和φ。3.3模型2：生成和推理过程根据[8，16]的工作，我们开发了模型1的扩展，引入了辅助变量。辅助变量改进了变分近似，并为模型的分类器引入了一层潜在变量。

20楼

mingdashike22

发表于 2022-6-23 20:53:49

[量化金融] 信用评分中拒绝推理的深层生成模型 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群