[量化金融] 用于选择分析的深层神经网络：一种统计学习理论 [推广有奖]

41楼

mingdashike22

发表于 2022-6-11 00:38:44

因为y是以概率s作为伯努利随机变量采样的*（x），E[y | x]=s*（x）。ES，x，y[（^s（x）- y） ]=ES，x，y（（^s（x）- s*（x） +秒*（十）- y））（52）=ES，x，y[（（^s（x））- s*（x））+2（^s（x）- s*（x））（s*（十）- y） +（s*（十）- y））]（53）=ES，x，y[（^s（x）- s*（x））]+Ex，y[（s*（十）- y））]+2ES，x，y[（^s（x）- s*（x））（s*（十）- y） ]（54）=ES，x，y[（^s（x）- s*（x））]+Ex，y[（s*（十）- y））]+2倍ES，y[（^s（x）- s*（x））（s*（十）- y） | x]（55）=ES，x，y[（^s（x）- s*（x））]+Ex，y[（s*（十）- y））]+2倍ES[（^s（x）- s*（x））| x]Ey[（s*（十）- y） | x]（56）=ES，x，y[（^s（x）- s*（x））]+Ex，y[（s*（十）- y））]（57）第四等式使用迭代期望定律；第五个使用条件独立性⊥ y | x；激光一次使用E[y | x]=s*（x）。通过非常相似的过程，我们可以显示x，y[（y- s*F（x））]=Ex，y[（y- s*（x） +秒*（十）- s*F（x））]（58）=Ex，y[（y- s*（x））]+Ex，y[（s*（十）- s*F（x））]+2Ex，y[（y- s*（x））（s*（十）- s*F（x））]（59）=Ex，y[（y- s*（x））]+Ex，y[（s*（十）- s*F（x））]+2倍（s）*（十）- s*F（x））Ey[y- s*（x） | x]（60）=Ex，y[（y- s*（x））]+Ex，y[（s*（十）- s*F（x））]（61）组合上述两个方程式impliesEx，y[（s*（十）- y））]=ES，x，y[（^s（x）- y） ]- ES，x，y[（^s（x）- s*（x））]（62）=Ex，y[（y- s*F（x））]- Ex，y[（s*（十）- s*F（x））]（63）通过更改符号，它意味着[Lmse（^s）- Lmse（s）*F））]=ES[Le（^s）- Le（s）*F）（64）命题4的证明。引理4.1表明，函数估计的估计误差与均方误差的估计误差相同。因此，我们将使用命题2提供MSE的上界。形式上，ES[Lmse（^s）- Lmse（s）*F））]≤ 2ES[^Rn（lo F（S）]（65）≤ 4ES[^Rn（F | S）]（66）第一个不等式使用命题2；第二种方法使用收缩不等式，这里的平方损失在[0，1]之间有界，并且它的Lipschitz常数最多为2。附录二。D：命题5的证明证明是一个逐层迭代的过程。

42楼

何人来此

发表于 2022-6-11 00:38:47

假设对于DNN的层j，映射为fj={f:x→dj-1Xt=1wtσ（ft（x））；英尺∈ Fj公司-1，| | w||≤ M（j）}那么fjc的Rademacher复杂性可以用Fj的Rademacher复杂性来表示-1、N^Rn（Fj | S）=Esupfj公司∈Fj公司NXi=1if（xi）（67）=Esupfj公司∈Fj公司NXi=1idj公司-1Xt=1wtσ（ft（xi））（68）=Esup | | w||≤米（j）英尺∈Fj公司-1.dj-1Xt=1wtNXi=1iσ（ft（xi））（69）=2Esup | | w||≤米（j）英尺∈Fj公司-1dj-1Xt=1wtNXi=1iσ（ft（xi））（70）=2M（j）Esupft公司∈Fj公司-1最大NXi=1iσ（ft（xi））（71）=2M（j）Esupft公司∈Fj公司-1.NXi=1iσ（ft（xi））(72)≤ 2M（j）Esupft公司∈Fj公司-1.NXi=1ift（xi）(73)≤ 2M（j）N^Rn（Fj-1 | S）（74），这意味着DNN的迭代公式：^Rn（Fj | S）=2M（j）^Rn（Fj-1 | S）（75）剩下的问题是关于层0的Rademacher复杂性，这是一个线性变换F={x→ hw，xi：w∈ Bd}带归一化输入X.^Rn（F | S）≤rlog dN（76）结合上述方程，可以证明DNN的Rademacher复杂性为：Rn（F | S）。√对数d×QDj=12M（j）√N（77）注意，这里Rademacher复杂性有2Dfactor。通过更复杂的技术，可以证明更精确的上界为^Rn（F | S）。√对数d×（p2对数（d）+1）QDj=1MF（j）√N（78）这一结果可在Golowich等人（2017）[25]中找到，但略有不同。我们在这里提出的证明的关键步骤可以在Bartlett和Mendelson（2002）[5]中找到。其他相关工作见【2】和【46】。附录二。E、命题6的证明由于VC维仅用作基准，我们将演示一个简单的证明，即二进制输出的估计误差上界为O（qv log（N+1）N）。使用温赖特（2019）引理4.14【66】^Rn（lo F | S）≤ 4rv对数（N+1）N（79）注意，对数（N+1）比v和N小得多。

43楼

能者818

发表于 2022-6-11 00:38:50

这个上限也可以简化（rvN）（80），这类似于检查参数数量和观测数量之间比率的传统智慧，因为v与广义线性模型中的参数数量相同。对于DNN，可在[6]中找到最紧密的VC尺寸，即v=O（T D log（T）），其中T表示系数的总数，D表示DNN的深度。该O（pvN）也可以是（a）选择概率曲线（50 Var）（b）选择概率曲线（50 Var）（c）选择概率曲线（50 Var）（图6）。场景1-3。从左至右：样本量100、1000、10000、100000、1000000用于^s（x）案例。但我们不会在这里讨论细节。读者可以参考[64、63、65、66]了解详情。附录三：实验的进一步结果图6包含了大约50个变量的结果

返回列表

上一页 1 2 3 45

发帖

本版微信群

扫码
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[量化金融] 用于选择分析的深层神经网络：一种统计学习理论 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群