楼主: nandehutu2022
1130 42

[量化金融] 用于选择分析的深层神经网络:一种统计学习理论 [推广有奖]

21
能者818 在职认证  发表于 2022-6-11 00:37:39
图2的下一行显示了选择概率和输入变量之间的关系,输入变量的样本大小从100到1000000不等。在每个子图中,黑色曲线代表真实的s*(x) ;每条红色曲线表示DNN的估计函数^s(x),每条蓝色曲线表示BNL的估计函数^s(x)。随着样本量的增加,DNN和BNL中预测和解释损失的估计误差均收敛到零,DNN估计误差的收敛速度仅略慢于BNL,如图2a至2d所示。毫不奇怪,估计误差总是随着样本量的增加而减少,因为等式17和18意味着较大的样本量会导致较小的样本外预测和解释损失。在场景1,f中是什么*Fis与f相同*. 因此L(f*F) 由黑色虚线表示(a)预测损失(20 Var)(b)预测损失(50 Var)(c)解释损失(20Var)(d)解释损失(50Var)(e)选择概率曲线(20 Var);样本量=100、1000、10000、100000、1000000图。2、场景1。上排:比较DNN和BNL的预测和解释损失;下一行:可视化选择概率如何随输入变化;红色曲线:DNN,蓝色曲线:BNL,黑色曲线:真实模型。上一行中的图与表1中的理论框架对应:红色和黑色曲线之间的差异是DNN的预测/解释损失,由于近似误差为零,因此仅等于这种情况下的估计误差。令人惊讶的是,DNN的收敛速度仅略慢于BNL,尤其是从经典统计角度来看,因为DNN中的参数数量是简约BNL模型的2000倍。

22
能者818 在职认证  发表于 2022-6-11 00:37:43
更准确地说,我们的DNN体系结构的VC维v=50000×5×log(50000)’300万(方程式21),这比我们使用的任何样本量都大,远远不同于经典的渐近数据体系。相反,基于收缩不等式(命题5和命题6)的理论上界用黄色曲线表示,该曲线比基于VC维的曲线更紧,尽管与模拟结果相比,它仍然很松散。因此,仿真结果与我们的理论讨论一致,即DNN中的参数数量不应用于测量其估计误差界。根据经验,DNN和BNL需要大致相同数量的数据才能进行准确的解释和预测。对于20或50个变量,至少需要约10个样本,以便DNN的预测和解释损失接近理论最小值。虽然这10个样本量略大于问卷调查通常获得的样本量,但并非无法达到;例如,NHTS数据集有大约700000个观测值,远远大于10个。(a) 预测损失(20 Var)(b)预测损失(50 Var)(c)解释损失(20 Var)(d)解释损失(50 Var)(e)选择概率曲线(20 Var);样本量=100、1000、10000、100000、1000000图。3、场景2。上排:比较DNN和BNL的预测和解释损失;下一行:可视化选择概率如何随输入变化;红色曲线:DNN,蓝色曲线:BNL,黑色曲线:真实模型。上排中的图映射到表1中的理论框架。

23
可人4 在职认证  发表于 2022-6-11 00:37:45
与情景1不同,BNL有近似误差,因为蓝色曲线不能收敛到理论最小值,而DNN没有近似误差。为了解释DNN结果,我们可视化了^s(x)和一个输入变量xj之间的关系,如图2e所示。在一些研究中,这种可视化^s(x)对xjh的敏感性的方法被用于解释DNN结果【53、9、43】。同样,DNN估计的^s(x)很快收敛到真实的s(x),它捕获了s形选择概率曲线和线性效用规范,即使它不是先验的线性规范。总的来说,当研究人员非常确信先前的专家知识已经捕捉到了每一条信息时,具有手工特征的BNL在预测和解释方面表现得更好,尽管DNN只略差一点。3.2.2. 情景2A更现实的情况是研究人员无法正确指定效用函数的情景。在场景2中,s*(x) =σ(wφ(x)),其中φ(x)采用二次变换:φ([x,x,…,xd])=[x,x,…,xd,x,x,…,xd])。那么BNL FHL为误指定错误,而NN FD不是。结果如图3所示,图3的格式与图2完全相同。在场景2中,DNN在预测和解释损失方面占主导地位,即使样本量相对较小,如图3a至3d所示。DNN占优势的关键原因是它的零近似误差,而BNL的大近似误差是通过理论最小值和蓝色曲线收敛到的损耗值之间的差距来测量的。样本量仍然是BNL和DNN的一个关键因素,尽管这两个因素的临界量有所不同。

24
kedemingshi 在职认证  发表于 2022-6-11 00:37:49
BNL收敛到其最佳值(f*F) 只有大约10个观测值,而DNN收敛到其最佳值(F*F=F*) 当样本量达到10或10左右时。这一结果与我们的理论讨论非常一致。BNL与经典统计一致,由于v/N较小,其估计误差较小。这一结果还表明,像BNL这样的低维统计工具无法发挥大样本数据集的预测能力。只有像DNN这样非常复杂的模型才能充分发挥大样本的预测和解释能力。图3e显示了^s(x)和具有不同样本大小的输入变量x之间的关系。由于功能错误,即使样本量变得非常大,BNL也不可能恢复真实模式,而DNN凭借自动实用规范的能力,即使没有事先的领域知识,也可以逐渐了解潜在的真实实用规范。与图3c和3d一致,DNN需要大约10和10的样本量来恢复选择概率函数的真实模式。由于BNL中的误判及其相应的近似误差,即使样本量非常小,DNN也有可能在预测和解释方面优于BNL。3.2.3. 场景3A更现实的情况是,研究人员既不能收集全部信息,也不能正确指定效用函数(f*6.∈ 风扇f*6.∈ F) 。在场景3中,s*(x) =σ(wφ(x)),其中φ(x)=[1,x,x,…,xd,x,x,…,xd,xx,…,xd-1xd],包括二次变换和相互作用项。制作f*6.∈ F、 在训练中,我们从20个变量中随机抽取5个变量,从50个变量中随机抽取20个变量,这样即使F*Fcannot近似值f*好

25
何人来此 在职认证  发表于 2022-6-11 00:37:52
结果如图4所示,格式与前面的相同。如图4所示,结果与场景2中的结果非常相似,只有一个关键差异,即DNN也存在近似误差。DNN的近似误差由理论最小值与DNN收敛到的预测和解释损失值之间的差异测量:由于存在近似误差,红色曲线不再收敛到理论最小值,如图4a-4d所示。这也是一个重要的信息,即DNN虽然经常被称为通用近似器,但仍能避免忽略变量等威胁。如果信息不完整,DNN不太可能接近基本的*(x) 嗯。然而,图4e表明,DNN仍然可以很好地捕捉到关于观察变量的选择概率函数,即使忽略了变量。当样本量达到10或10时,红色曲线(DNN)可以近似真实的钟形选择概率函数。(a) 预测损失(20 Var)(b)预测损失(50 Var)(c)解释损失(20 Var)(d)解释损失(50 Var)(e)选择概率曲线(20 Var);样本量=100、1000、10000、100000、1000000图。4、场景3。上排:比较DNN和BNL的预测和解释损失;下一行:可视化选择概率如何随输入变化;红色曲线:DNN,蓝色曲线:BNL,黑色曲线:真实模型。与情景1和2不同,BNL和DNN都有近似误差,因为红色曲线无法收敛到理论最小值。总的来说,此场景表明DNN无法解决所有问题。“universalapproximator”声明仅适用于观察到的信息的函数形式,因此只有在模型中观察到所有信息时才适用。

26
可人4 在职认证  发表于 2022-6-11 00:37:56
然而,即使忽略了信息,DNN在预测和解释方面仍优于BNL,因为它能够将观察到的信息延伸到未观察到的信息,并且能够自动学习效用规范。3.3. NHTS数据集的实验选择NHTS数据集是因为其广泛的地理覆盖范围(全美国)、大样本量(780000次旅行)和大量的输入变量,使我们能够观察预测精度随样本量和输入变量的变化。NHTS数据集的10%用于测试模型性能。为了与我们的模拟形成一个平行的讨论,NHT实验改变了样本大小(从100到500000)和输入变量的数量(20和50)。选择的输入变量是决定模式选择和跳闸目的的最重要变量。结果如图5所示,格式与前一个类似,但有两个不同之处:自s*(x) (a)模式选择预测(20个变量)(b)模式选择预测(50个变量)(c)出行目的预测(20个变量)(d)出行目的预测(50个变量)(e)选择概率变化w.r.t.出行距离(从左到右:样本量100、1000、10000、100000500000)图5。NHTS数据集。上排:比较DNN和BNL在预测出行模式选择和出行目的中的预测损失;下一行:可视化选择概率如何随输入变化。近似误差不再可用,因为理论最小值也未知。有趣的是,从5c到5d的数字显示了混合场景1和场景2的模式:当样本量为10左右时,BNL优于DNN,而当样本量大于10时,DNN开始优于BNL。

27
kedemingshi 在职认证  发表于 2022-6-11 00:38:00
BNL的收敛速度非常快,大约在10个样本大小时停止,而DNN的收敛仍然不清楚,因为当样本大小达到50万时,红色曲线仍有下降趋势。这再次证明,只有非常大的样本量才能发挥DNN的全部预测能力,尽管即使在问卷调查中,10个样本量也不是无法达到的。这些结果还表明,手工编制的实用程序规范已经捕获了某些信息,因为当样本量相对较小时,它的性能更好,尽管它没有捕获数据集中所有可能的信息,但当样本量较大时,它的性能更差。显然,DNN的逼近误差小于BNL,但DNN的估计误差也不大。图5e显示了驾驶概率如何随行程距离变化。结果与我们在场景2和场景3中的发现非常相似,因为当样本量达到时,DNN开始收敛,当样本量等于10或10时,其模式变得非常稳定。DNN和BNL之间的差异再次表明BNL中存在近似误差。DNN和BNL的驱动概率函数相似且直观,因为两者都是单调递增的,而DNN似乎比BNL捕捉到了更多的微妙之处:BNL表示近似线性关系,而DNN描述了对行程距离变化的敏感性大致降低的关系。这种敏感性的降低是非常直观的,因为人们不太可能改变他们的驾驶行为,因为旅行距离已经足够大了。结论与讨论本研究讨论了DNN何时以及为什么可以应用于选择分析,重点是回答DNN面临的非过度匹配和可解释性挑战。

28
大多数88 在职认证  发表于 2022-6-11 00:38:03
提出了一个理论框架来描述估计误差和近似误差之间的权衡,以及预测损失和解释损失之间的平衡。通过使用三个模拟场景和NHTS数据集进一步证明了该理论,得出了这些主要结论。首先,可解释性可以通过使用选择概率函数来实现,因为DNN中自然存在效用比较和规范,选择概率函数的精确估计量^s(x)使研究人员能够提取通常从传统选择模型中获得的所有必要经济信息。我们的模型解释在某种程度上与传统方法有所不同,至少有三个原因。(1) 这一过程可以称为预测驱动解释,这意味着研究人员在模型训练后从DNN中提取信息,即使DNN的设计初衷是最大限度地提高预测精度。这种预测驱动的解释是直观的,因为“当预测质量一直很高时,一定在DNN中发现了一些结构”[45]。(2) 我们的解释是基于函数估计而不是参数估计。在DNN中几乎不可能评估每个单独的参数,因此,侧重于DNN中变换特征的整个空间的函数估计是一种更可行的解释方法。(3) 如我们的蒙特卡罗模拟和NHTS应用程序所示,这种预测驱动的预测方法可以自动学习潜在的公用设施规格。

29
可人4 在职认证  发表于 2022-6-11 00:38:06
这种方法是有效的,因为手工编制的实用程序规范很少能够捕获全部信息,相应地,自动学习实用程序规范的某些功能应始终参与选择分析。第二,非过度匹配问题至少可以通过不稳定学习理论的最新进展得到部分解决,并在我们的实验中得到证明。预测和解释损失的估计误差可由DNN的Rademacher复杂度限定。由于理论发展仍在进行中,理论表明样本大小、输入维度和规模、DNN深度和DNN中各层的规范之间存在微妙的动态关系,因此提供关于正确样本大小的明确规则仍然具有挑战性。然而,底线是,研究人员不需要计算限制估计误差的参数数量,也可以将其命名为事后解释,这意味着研究人员在模型训练后从预测驱动模型中提取信息。由于存在许多其他替代方法[22,54,41]DNN,基于VC维度的上限对于DNN应用程序来说过于宽松,因此这种方法是否是最好的,这是有争议的。虽然样本量要求不像经典统计理论预期的那么大,但相对较大的样本对于DNN的可推广结果仍然至关重要。我们的实验表明,对于典型的出行行为分析,DNN要优于BNL,样本大小至少需要达到10。样本量的要求略大于问卷调查的一般规模,但在实践中仍然可以达到。事实上,几项发现DNN优于MNL的研究的样本量与10相似【68,47】。然而,即使样本量小于,这并不意味着DNN不能工作。

30
能者818 在职认证  发表于 2022-6-11 00:38:09
在这种情况下,可以而且应该使用谨慎的正则化方法来提高模型性能,尽管我们在本研究中不太关注正则化。我们相信,这些见解有助于理解何时以及为什么DNN可以用于选择分析,它们具有理论和实践的重要性。该理论框架扩展了经典渐近数据区(v/N),可以作为未来选择分析研究的新基础→ 0)使用统计学习理论的最新进展,从低维统计到高维统计工具。这种扩展很重要,因为非渐近数据体系和高维统计工具在实践中越来越普遍。同时,研究人员可以使用解释思想从基于DNN的选择模型中生成经济信息,以达到至少与传统选择模型相同的解释水平,用于行为和政策分析目的。然而,许多重要的任务仍有待于今后的研究。四个象限中的每一个都比我们的讨论要深刻和复杂得多。未来的研究将需要研究小样本的有效正则化方法,研究DNN如何与具有随机系数的混合logit模型相关联,以超出传统选择模型框架的方式拓宽可解释性概念,并说明DNN的近似误差部分。鉴于机器学习模型的丰富性和个人决策的重要性,它们的交叉点无疑将成为未来的一个热门研究领域。作者的贡献。W、 和J.Z.构思了所提出的想法;S、 发展了该理论并回顾了以前的研究;S、 W.和Q.W。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 10:44