楼主: 能者818
1333 33

[量化金融] 信用评分中拒绝推理的深层生成模型 [推广有奖]

11
能者818 在职认证  发表于 2022-6-23 20:53:20
结果表明,贝叶斯界崩溃方法比增广模型和Heckman模型表现更好。在本研究中,我们提出了一种新的贝叶斯推理方法,用于信用评分中的拒绝推理,该方法使用高斯混合模型和与[24,36]不同的方法,因为我们的模型基于变量推理、神经网络和随机梯度优化。我们提出的方法的主要优点是:(i)对被拒绝的应用程序的推断基于对后验分布的近似,以及对被拒绝的应用程序可能采取的两种可能结果的精确列举,(ii)模型使用客户数据的潜在表示,其中包含强大的信息,(iii)深度生成模型可扩展到大型数据集。自训练算法是一种迭代方法,其中对未标记数据进行高度一致的预测,以重新训练模型。此过程重复次数与用户指定的次数相同。对这种方法的主要批评是,它可以强化糟糕的预测。【23】中使用的模型最初由【44】开发,使用分枝定界方法来解决半监督支持向量机中面临的混合整数约束二次规划问题。这种方法减少了训练时间,使其适用于大型问题。该模型最初在Sebastiani和Ramoni(2000)“使用boundand collapse对缺失数据进行贝叶斯推断”中提出。3个深层生成模型【45,46】给出了深层神经网络变分推理的原理。在此基础上,[7]提出了一种用于半监督学习的广义概率方法。

12
nandehutu2022 在职认证  发表于 2022-6-23 20:53:23
在第3.2节和第3.3.3.1节中介绍了两种新的拒绝推理模型之前,我们将在第3.1节中解释这种方法,数据集D={Daccept,drObject}由n个(标记的)接受的应用程序Daccept={(x,y),…,(x,y)n}和m个(未标记的)拒绝的应用程序drObject={xn+1,…,xn+m}组成,其中x∈ R′xis特征向量和yi∈ {0,1}是类别标签或贷款结果,如果客户偿还了贷款,则y=0,否则y=1。此外,生成模型假设潜在变量Z∈ R`Z控制x的分布。生成模型的目标是获得用于信用评分和贷款结果的数据的联合分布p(x,y)。然而,这种分布很难处理,因为它需要对整个潜在空间进行积分,即Rp(x,y,z)dz。此外,p(x,y)的难处理性通过关系p(z | x,y)=p(x,y,z)Rp(x,y,z)dz转化为z的可控制后验分布。(1) 因此,我们用推理模型q(z | x,y)近似真后验p(z | x,y),并最小化Kullback-Leibler(KL)发散度KL[q(z | x,y)| p(z | x,y)],使近似尽可能接近真密度。KL[q(z | x,y)| p(z | x,y)]项、目标函数Laccept和密度p(x,y)通过以下表达式log p(x,y)=Eq(z | x,y)[log p(x,y)]=Eq(z | x,y)hlogp(x,y,z)p(z | x,y)q(z | x,y)i=Eq(z | x,y y)hlogp(x,y,z)q(z | x,y)i+Eq(z | x,y)hlogq(z | x,y)p(z | x,y)i:=-Laccept(x,y)+KL[q(z | x,y)| p(z | x,y)]。(2) 考虑到方程2中的KL散度是严格正的-Laccept(x,y)是对数p(x,y)的下界,即对数p(x,y)≥ -Laccept(x,y)。

13
mingdashike22 在职认证  发表于 2022-6-23 20:53:27
因此,由于我们无法计算p(z | x,y),我们通过最大化负下界来最大化g p(x,y)。注意,在等式2中,我们假设贷款的结果y是已知的。然而,这不是被拒绝的申请项目的情况。在这种情况下,生成模型将y视为潜在变量,并使用参数函数q(y | x)近似真实后验分布p(y | x)。假设因式分解q(z,y | x)=q(y | x)q(z | x,y)和q(y | x)的一种简单形式,我们可以对类标签y进行显式预测,也就是说,我们通过对可能发生的两种结果进行汇总来处理贷款结果的不确定性。数学上,等式(z,y | x)hlogp(x,y,z)q(z,y | x)i=等式(y | x)Eq(z | x,y)hlogp(x,y,z)q(z,y | x)i=等式(y | x)[-Laccept(x,y)- log q(y | x)]=Xyq(y | x)[-Laccept(x,y)- 对数q(y | x)]:=-Lreject(x)。(3) KL散度是两种密度之间接近程度的度量,例如KL[q(·)| | p(·)],通常以位来衡量。它是非负的,当q(·)=p(·)时,它最小化。xyzN(a)模型1:GenerativexyzN(b)模型1:推断Xayzn(c)模型2:GenerativexayzN(d)模型2:推断1图1:模型1和模型2的图版符号,其中x是观察到的特征向量,y是LOA的结果,仅在接受的应用中观察到,z和a是潜在变量。生成过程用实线表示,推理过程用虚线表示。请注意,MLP权重θ和φ位于面板之外,我们省略它们以避免图表混乱。因此,半监督深层生成模型中的目标函数是接受应用程序的监督下界和拒绝应用程序的无监督下界之和L=Lacept(x,y)+Lreject(x)。

14
kedemingshi 在职认证  发表于 2022-6-23 20:53:30
(4) 此外,深层生成模型通过多层感知器(MLP)网络将方程2和3中密度函数的参数参数化。例如,如果z | x,y是具有对角协方差矩阵的多元高斯分布,我们使用符号p(z | x,y)~ N(z | x,y;u=fθ(x,y),σI=fθ(x,y)),(5),其中u∈ R’zandσ∈ R`z,指定高斯分布的参数由一个用f(x,y)表示的MLP网络参数化,该网络具有输入数据x,y和权重θ。因此,目标函数的优化与MLP中的权重有关。另一种表示法是简化相应分布中的下标θ,即pθ(z | x,y)。最后,请注意,[24,37]中使用的EM算法不能用于这种情况,因为它需要计算p(z | x,y)的期望值,这很难处理。其他变分推理技术,如平均场或随机变分推理,确定每个数据点xi的ui和σi的不同值,这在计算上很昂贵。类似地,传统EM算法需要在更新参数之前计算整个数据集的预期w.r.t。因此,深度生成模型利用数据x(MLP网络)的复杂函数来估计最新变量z的最佳可能值。这允许用MLP权重θ的更有效优化来代替点特定参数ui和σi的优化。后者表示摊销推断[48]。3.2模型1:生成和推理过程在本节中,我们在[7,11]中所做工作的基础上,开发了一个新的半监督模型,该模型具有用MLPs参数化的aGaussian混合模型。高斯混合诱导了一个灵活的潜在空间,从而提高了下限的近似值[8,16]。

15
可人4 在职认证  发表于 2022-6-23 20:53:33
因此,模型1假设生成过程pθ(x,y,z)=p(y)pθ(z | y)pθ(x | z),其中x⊥ y | z,具有以下概率密度函数sp(y)~ 伯努利(y;π),p(z | y)~ N(z | y=k;uzk=fθ(y),σzkI=fθ(y)),对于k=0,1,p(x | z)~ N(x | z;ux=fθ(z),σxI=fθ(z))。(6) 深度生成模型也可以用卷积神经网络(CNN)开发。然而,CNN需要重构数据,如视频、图像或时间序列数据。本研究中的数据集是应用时具有客户特征的特征向量。此类数据不具有训练CNN所需的网格状结构。有关CNNs在信用评分中的应用,请参阅【47】。这里N表示高斯分布,f(·)是一个多层感知器模型,权重由θ表示。此外,我们假设推理过程被分解为q(z,y | x)=q(y | x)q(z | x,y),具有以下概率密度q(y | x)~ 伯努利(y;πy | x=fφ(x)),q(z | x,y)~ N(z | x,y;uz=fφ(x,y),σzI=fφ(x,y))。(7) N是高斯分布,f(·)是多层感知器模型,权重用φ表示。注意,生成过程中的边际分布p(z)是一个GMM,即p(z)=Xyp(y)p(z | y)=πN(uz,σzI)+(1- π) N(uz,σzI),其中(1- π) 表示默认概率的先验值。生成和推理过程如图1所示。在以下部分中,我们使用θ和φ来区分生成过程中的期望和方差项与推理过程中的期望和方差项,以及区分生成过程中的MLP权重与推理过程中的MLP权重。

16
大多数88 在职认证  发表于 2022-6-23 20:53:36
进一步,我们推导了信用评分拒绝推理新方法下有监督和无监督数据的下界。标记数据:推导目标函数LacceptWe使用方程2和方程6中生成过程的因式分解来推导可接受数据集Daccept的下界。因此,扩展下界中的项,我们得到Eqφ(z | x,y)hlogpθ(x,y,z)qφ(z | x,y)i=Eqφ(z | x,y)[对数p(y)+对数pθ(z | y)+对数pθ(x | z)- 记录qφ(z | x,y)],(8)并根据期望值,参见附录B.2节,我们发现单个(受监督)数据点的负下界,即-Laccept({x,y}i;θ,φ)=h`zXj=1(1+logσφj)-`zXj=1对数σθj,y+σφjσθj,y+(uφj- uθj,y)σθj,yi+logπi+LLXl=1log N(xi | zi,l)。(9) 这里` zi是z的维数,σ·jandu·jare分别是σ·和u·的第j个元素,πi是类标签yi上的优先分布,L是zi的数量,L是从qφ(z | x,y)中提取的样本数。我们使用重新参数化技巧zi,l=uiφ+σiφ l、 在哪里l~ N(0,I)和 表示元素Wise乘法,通过σ·和u·反向传播。因此,等式9中的最后一项是N(xi | zi,l=uiφ+σiφ l) 我们使用qφ(z | x,y)来采样uiφ和σiφ。注意,由于在这种情况下y是已知的,我们只需要在MLP参数化GMM中通过其相应的高斯分量进行反向传播。换句话说,如果yi=0,随机梯度优化仅更新图2中第一个分量的|θyandσθyf中的所有权重。这由方程式9中的下标y规定。未标记数据:推导目标函数lReject在这种情况下,我们将未知标签y视为潜在变量,并用q(y | x)近似真实后验分布。假设q(y | x)~ 伯努利(·)是一个相对容易的分布,我们在无监督下界中取显式期望。

17
mingdashike22 在职认证  发表于 2022-6-23 20:53:39
遵循方程式3中的步骤以及。。。y1y2h1hluz0σ2z0uz1σ2Z1图2:由多层感知器模型参数化的高斯混合分量,其中y·是输入数据的一个热编码([yy]=[0 1]和[yy]=[1 0]分别是y=1和y=0的一个热编码),HL是隐藏层中的第l个神经元,uzi zi和σzi是GMM中第i个分量的密度矩。对于接受的应用程序,我们通过其相应的组件进行反向传播,而对于被拒绝的应用程序,Weback通过这两个组件进行传播。方程6和7中的因式分解,我们得到Eqφ(z,y | x)hlogpθ(x,y,z)qφ(z,y | x)i=Eqφ(z,y | x)[对数p(y)+对数pθ(z | y)+对数pθ(x | z)- 对数qφ(y | x)- log qφ(z | x,y)]=等式φ(y | x)[-Laccept(x;θ,φ)- log qφ(y | x)]=Xyqφ(y | x)[-Laccept(x;θ,φ)- log qφ(y | x)],(10),定义为无监督负下界-Lreject(x;θ,φ)。此外,根据预期,见附录B.3节,我们可以获得单个数据点的负下界,即-Lreject(xi;θ,φ)=Xy=0πy | xih ` zXj=1(1+logσφj)-`zXj=1对数σθj,y+σφjσθj,y+(uφj- uθj,y)σθj,yi+Xy=0πy | xilogπy | xi+LLXl=1log N(xi | zi,l),(11),其中πy | xis是类标签πy | x=[πy=0 | x(1-πy=0 | x)]。其余参数的解释与监督负下界中的解释相同。

18
能者818 在职认证  发表于 2022-6-23 20:53:42
注意,在这种情况下,我们通过列举后验参数πy | x的两个可能值(y=0和y=1)来获得对潜变量y的期望,这也意味着我们需要在θσyanduθy中反向传播两个分量,一次一个,见图2。我们训练模型1交替目标函数l=nxilacept((x,y)i;θ, φ) - α·log E^p(x,y)[qφ(yi | xi)]+n+mXjLreject(xj;θ,φ),(12),其中E^p(x,y)是经验分布。请注意,我们将术语log E^p(x,y)[qφ(yi | xi)]引入监管下界,以利用已接受的应用程序并培训最佳可能的分类者。术语α=β·m+nn控制监督损失函数中分类的重要性,其中m和n分别是被拒绝和接受的观察数,β只是一个比例因子。3.2.1使用模型1进行信用评分时的拒绝推理不仅学习信用评分中使用的客户数据的分布p(x | z),而且还学习其潜在表示p(z | x,y)。这种潜在的表示反映了客户数据的内在结构或语义。此外,模型1近似于后验类标签分布q(y | x),我们使用后验类标签分布估计新应用的默认概率。该概率由后验参数πy | x中的互斥结果给出,后验参数πy | x由输出层具有softmax激活函数的MLP参数化。模型1在信用评分中拒绝推理的最重要特征是,通过考虑贷款在授予信用的情况下可能采取的两种状态y=1和y=0来评估未知的可编辑性(方程式10)。

19
kedemingshi 在职认证  发表于 2022-6-23 20:53:46
这意味着该方法明显不同于拒绝推理的所有外推方法。此外,由于它依赖于后验分布的近似,因此它不像预期最大化算法那样具有限制性。可以看出,等式12包括项KL[qφ(z | x,y)| pθ(z | y)]。然后,目标函数的优化迫使qφ(z | x,y)尽可能接近pθ(z | y),我们将其建模为高斯分布的混合。这样做的第一个动机是,接受和拒绝的应用程序的数据由两个不同的过程生成,正如【24】中所述。其次,该混合模型生成一个灵活的潜在空间,这有助于改进模型1中推理过程的近似性。最后,等式12中的目标函数包括密度p(z | y)和p(x | z)的MLP权重θ,以及密度q(y | x)和q(z | x,y)的φ。这些都是模型1中的权重,在监督和非监督损失中都存在。因此,随机梯度优化联合更新这些权重,并估计方程6和7中的不同参数u、σ和π。在实践中,当给算法提供一个标记的(可接受的)观测值时,反向传播算法中的损失函数是Laccept((x,y)i;θ, φ). 类似地,在处理未标记(拒绝)观测时,损失函数为Lreject(xj;θ,φ)。在任何情况下,由于同一MLP同时处理接受和拒绝的应用程序,因此在每次迭代时都会更新所有MLP权重θ和φ。3.3模型2:生成和推理过程根据[8,16]的工作,我们开发了模型1的扩展,引入了辅助变量。辅助变量改进了变分近似,并为模型的分类器引入了一层潜在变量。

20
mingdashike22 在职认证  发表于 2022-6-23 20:53:49
因此,我们提出的模型2在文献中首次将高斯混合与辅助变量结合在半监督框架中。具体而言,我们假设生成过程p(x,y,z,a)=p(a)p(y)p(z | y)p(x | z,y)具有以下分布p(y)~ 伯努利(y;π),p(a)~ N(a;0,1),p(z | y)~ N(z | y=k;uzk=fθ(y),σzkI=fθ(y)),对于k=0,1,p(x | z,y)~ N(x | z,y;ux=fθ(z,y),σxI=fθ(z,y))。(13) 这里,N是高斯分布,f(·)是多层感知器模型,权重由θ表示。推理过程分解为q(z,a,y | x)=q(a | x)q(y | x,a)q(z | x,y)。该过程的分布为q(a | x)~ N(a | x;ua=fφ(x),σaI=fφ(x)),q(y | x,a)~ 伯努利(y | x,a;πy | x,a=fφ(x,a)),q(z | x,y)~ N(z | x,y;uz=fφ(x,y),σzI=fφ(x,y))。(14) N是高斯分布,f(·)是多层感知器模型,权重用φ表示。标记数据:推导目标函数时,遵循第3.1节中的步骤,很容易证明监督负下界-L(x,y;θ,φ)accept=等式φ(z,a | x,y)hlogpθ(x,y,z,a)qφ(z,a | x,y)i=等式φ(z,a | x,y)[对数p(a)+对数p(y)+对数pθ(z | y)+对数pθ(x | z,y)- 对数qφ(a | x)- 对数qφ(z | x,y)]。(15) 使用方程式13和14,并取相应的期望值,见附录B.4节,我们获得第i个数据点的下限,如下所示-Laccept((x,y)i;θ、 φ)=h` zXj=1(1+对数σφzj)-`zXj=1对数σθj,y+σφzjσθj,y+(uφzj- uθj,y)σθj,yi+logπi+` aXc=1(σφac+uφac- (1+对数σφac))+LzLzXl=1对数N(xi | zi,l,y)。(16) 这里“zand”分别是z和a的维数,σ·jandu·jare分别是σ·和u·的第j个元素,它们指的是z或a的方差或期望值,πi是类标签yi上的先验分布,lzi是从qφ(z | x,y)中提取的zi,l样本数。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-11 15:48