楼主: nandehutu2022
1126 42

[量化金融] 用于选择分析的深层神经网络:一种统计学习理论 [推广有奖]

41
mingdashike22 在职认证  发表于 2022-6-11 00:38:44
因为y是以概率s作为伯努利随机变量采样的*(x) ,E[y | x]=s*(x) 。ES,x,y[(^s(x)- y) ]=ES,x,y((^s(x)- s*(x) +秒*(十)- y) )(52)=ES,x,y[((^s(x))- s*(x) )+2(^s(x)- s*(x) )(s*(十)- y) +(s*(十)- y) )](53)=ES,x,y[(^s(x)- s*(x) )]+Ex,y[(s*(十)- y) )]+2ES,x,y[(^s(x)- s*(x) )(s*(十)- y) ](54)=ES,x,y[(^s(x)- s*(x) )]+Ex,y[(s*(十)- y) )]+2倍ES,y[(^s(x)- s*(x) )(s*(十)- y) | x](55)=ES,x,y[(^s(x)- s*(x) )]+Ex,y[(s*(十)- y) )]+2倍ES[(^s(x)- s*(x) )| x]Ey[(s*(十)- y) | x](56)=ES,x,y[(^s(x)- s*(x) )]+Ex,y[(s*(十)- y) )](57)第四等式使用迭代期望定律;第五个使用条件独立性⊥ y | x;激光一次使用E[y | x]=s*(x) 。通过非常相似的过程,我们可以显示x,y[(y- s*F(x))]=Ex,y[(y- s*(x) +秒*(十)- s*F(x))](58)=Ex,y[(y- s*(x) )]+Ex,y[(s*(十)- s*F(x))]+2Ex,y[(y- s*(x) )(s*(十)- s*F(x))](59)=Ex,y[(y- s*(x) )]+Ex,y[(s*(十)- s*F(x))]+2倍(s)*(十)- s*F(x))Ey[y- s*(x) | x](60)=Ex,y[(y- s*(x) )]+Ex,y[(s*(十)- s*F(x))](61)组合上述两个方程式impliesEx,y[(s*(十)- y) )]=ES,x,y[(^s(x)- y) ]- ES,x,y[(^s(x)- s*(x) )](62)=Ex,y[(y- s*F(x))]- Ex,y[(s*(十)- s*F(x))](63)通过更改符号,它意味着[Lmse(^s)- Lmse(s)*F) )]=ES[Le(^s)- Le(s)*F) (64)命题4的证明。引理4.1表明,函数估计的估计误差与均方误差的估计误差相同。因此,我们将使用命题2提供MSE的上界。形式上,ES[Lmse(^s)- Lmse(s)*F) )]≤ 2ES[^Rn(lo F(S)](65)≤ 4ES[^Rn(F | S)](66)第一个不等式使用命题2;第二种方法使用收缩不等式,这里的平方损失在[0,1]之间有界,并且它的Lipschitz常数最多为2。附录二。D: 命题5的证明证明是一个逐层迭代的过程。

42
何人来此 在职认证  发表于 2022-6-11 00:38:47
假设对于DNN的层j,映射为fj={f:x→dj-1Xt=1wtσ(ft(x));英尺∈ Fj公司-1,| | w||≤ M(j)}那么fjc的Rademacher复杂性可以用Fj的Rademacher复杂性来表示-1、N^Rn(Fj | S)=Esupfj公司∈Fj公司NXi=1if(xi)(67)=Esupfj公司∈Fj公司NXi=1idj公司-1Xt=1wtσ(ft(xi))(68)=Esup | | w||≤米(j)英尺∈Fj公司-1.dj-1Xt=1wtNXi=1iσ(ft(xi))(69)=2Esup | | w||≤米(j)英尺∈Fj公司-1dj-1Xt=1wtNXi=1iσ(ft(xi))(70)=2M(j)Esupft公司∈Fj公司-1最大NXi=1iσ(ft(xi))(71)=2M(j)Esupft公司∈Fj公司-1.NXi=1iσ(ft(xi))(72)≤ 2M(j)Esupft公司∈Fj公司-1.NXi=1ift(xi)(73)≤ 2M(j)N^Rn(Fj-1 | S)(74),这意味着DNN的迭代公式:^Rn(Fj | S)=2M(j)^Rn(Fj-1 | S)(75)剩下的问题是关于层0的Rademacher复杂性,这是一个线性变换F={x→ hw,xi:w∈ Bd}带归一化输入X.^Rn(F | S)≤rlog dN(76)结合上述方程,可以证明DNN的Rademacher复杂性为:Rn(F | S)。√对数d×QDj=12M(j)√N(77)注意,这里Rademacher复杂性有2Dfactor。通过更复杂的技术,可以证明更精确的上界为^Rn(F | S)。√对数d×(p2对数(d)+1)QDj=1MF(j)√N(78)这一结果可在Golowich等人(2017)[25]中找到,但略有不同。我们在这里提出的证明的关键步骤可以在Bartlett和Mendelson(2002)[5]中找到。其他相关工作见【2】和【46】。附录二。E、 命题6的证明由于VC维仅用作基准,我们将演示一个简单的证明,即二进制输出的估计误差上界为O(qv log(N+1)N)。使用温赖特(2019)引理4.14【66】^Rn(lo F | S)≤ 4rv对数(N+1)N(79)注意,对数(N+1)比v和N小得多。

43
能者818 在职认证  发表于 2022-6-11 00:38:50
这个上限也可以简化(rvN)(80),这类似于检查参数数量和观测数量之间比率的传统智慧,因为v与广义线性模型中的参数数量相同。对于DNN,可在[6]中找到最紧密的VC尺寸,即v=O(T D log(T)),其中T表示系数的总数,D表示DNN的深度。该O(pvN)也可以是(a)选择概率曲线(50 Var)(b)选择概率曲线(50 Var)(c)选择概率曲线(50 Var)(图6)。场景1-3。从左至右:样本量100、1000、10000、100000、1000000用于^s(x)案例。但我们不会在这里讨论细节。读者可以参考[64、63、65、66]了解详情。附录三:实验的进一步结果图6包含了大约50个变量的结果

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 05:20