楼主: nandehutu2022
1135 42

[量化金融] 用于选择分析的深层神经网络:一种统计学习理论 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-6-11 00:37:09
例如,选择备选方案1相对于价格xjc的概率导数可以计算为导数dxj(x);其相关弹性isd log s(x)d log xj;行程时间节省值(VTT)可计算为两个导数Ds(x)/dxj1ds(x)/dxj2的比值;效用差异可以通过使用倒S形函数V来计算- V=σ-1(s);或者,备选方案1的经验市场份额可以通过PNI=1s(xi)来计算。因此,一个精确的函数估值器^s(x)可以帮助恢复弹性值、边际替代率(如VTT)、市场份额、效用值和社会福利,它们提供了实践中所需的大部分经济信息。必须看到,我们关注的是函数估计^s(x),而不是参数估计^w,这是大多数计量经济学模型的传统关注点。DNN几乎不可能专注于参数估计,原因至少有三个。首先,一个简单的前馈DNN很容易有上万个参数,而这个庞大的数字使得研究人员无法讨论单个参数。其次,DNN具有称为参数空间对称性的特性【11】,这意味着不同的参数可能导致相同的选择概率函数s(x)。因此,在DNN中解释单个参数w是真空的。第三,研究表明,语义信息不能从单个神经元中揭示出来,而是从DNN中每一层的空间中揭示出来[59]。大量研究使用DNN中的函数估计器进行解释,而没有一项研究使用单个神经元/参数[43、31、3、56]。Mullainathan和Spiess【45】认为,ML分类(包括DNN)与计量经济学模型在本质上是不同的,因为ML分类侧重于^y,而计量经济学模型侧重于^w。

12
nandehutu2022 在职认证  发表于 2022-6-11 00:37:12
这通常是正确的;然而,在DNN的情况下,选择概率函数^s(x)的准确估计器可以满足我们传统上通过使用^w实现的大多数解释目的。事实上,运输领域的一些研究已经可视化或计算了选择概率函数的梯度信息,以解释ML分类,支持我们基于选择概率函数对解释损失的定义[53、9、27]。此外,解释弹性Dsdxjis的过程与在MLcommunity中使用输入梯度的讨论相同【3,43】。因此,将重点从参数估计转移到函数估计,使研究人员能够在选择分析的背景下解释DNN结果,这种转移是不可避免的,也是可取的。虽然我们对解释损失的定义通过选择概率函数捕捉到关键经济信息,但这并不是定义解释损失的唯一方法。Lipton(2016)[41]讨论了可解释性的多个方面,包括可模拟性、可分解性、算法变换性和事后可解释性。我们对解释损失的定义侧重于仅限于经济信息的事后解释性,而不涉及解释性的其他方面以及通过事后解释方法获得的其他类型的信息【54、43、31】。尽管我们的方法与长期的选择建模传统保持一致,但正如Bertsimas等人(2019)最近的一份工作文件所示,我们有可能以其他方式确定解释损失。2.4. 近似误差,因为BNL是DNN(F)的一个子集 F) (如图1所示),DNNis的近似误差总是小于BNL【64】。直观地说,最佳模型(f*F) 在Fis中也在F中,所以通常F是正确的*Fcan近似值f*优于f*F

13
大多数88 在职认证  发表于 2022-6-11 00:37:15
形式上,提案1。DNN中预测损失的近似误差总是小于BNLES[L0/1(f*F)- L0/1(f*)] ≤ ES[L0/1(f*F)- L0/1(f*)] (13) 同样,DNN中解释损失的近似误差也小于inBNL:ES[Le(s*F)- Le(s)*)] ≤ (s)*F)- Le(s)*)] (14) 虽然这些结果不难看到,但可以从各种数学视角来理解。第一个观点是20世纪90年代发展起来的DNN的普遍逼近定理。研究表明,当宽度变为有限时,即使是浅层神经网络(SNN)也是一个渐近通用近似器[19、33、32]。最近,这个渐进的视角引出了一个更为非渐进的问题,即为什么深度对于SNN对于实际用例来说足够强大是必要的。研究表明,在许多情况下,DNN可以用比SNN少的指数级神经元数来近似函数[18、55、51]。这一观点与我们的重点非常相关,因为BNL是SNN的一种类型[9]。NN和BNL之间的选择可以等效为DNN和SNN之间的选择。X0X1ZY 0Y 1(a)F0单层稀疏神经网络(BNL)X0X1ZY 0Y 1(b)F1深层密集前馈神经网络(DNN)图1。BNL和DNN两种体系结构;第一个图表示具有线性规格的BNL,第二个图表示DNN。从视觉上看,DNN是BNL的扩展,其函数类也是BNL的扩展。两个图中的红色神经元都是效用值的可视化对象,而DNN中的蓝色神经元则是指定效用的过程。除了这些数学观点外,我们还强调了描述BNL和DNN之间相似性的经济观点,以及它们在自动和手工实用规范之间的差异。BNL和DNN在分类上是相似的,因为两者都涉及指定和比较效用值的过程。

14
何人来此 在职认证  发表于 2022-6-11 00:37:18
选择建模设置中的效用规格和比较的概念是众所周知的【62,7】,但它们也可以应用于NN。事实上,DNN的最后一层可以命名为公用设施,最后一层之前的层可以视为公用设施规范。然而,他们的主要区别在于,传统的BNL方法使用基于专家先验知识的手工实用规范,而DNN则基于复杂模型假设自动学习实用规范。因此,虽然我们的研究仅讨论BNL的线性效用规范,但BNL和DNN广泛体现了两种效用规范范式。任何形式的手工特征,例如合并二次项或对数项,都可以始终用作DNN的输入,从而实现额外的自动学习能力。在许多任务中,自动特征学习几乎是不可避免的,例如人脸识别,在这些任务中,手工制作人脸特征似乎几乎是不可能的[45]。ML社区的研究通常称赞这种自动特征学习的威力,尽管研究人员是否应该只依赖自动特征学习,还是应该依赖自动和手工特征学习的混合,这仍然是一个激烈的争论【38、8、40】。然而,底线是,纯手工实用性规范将无法最大限度地提高数据的预测和解释能力,使用或至少增强DNN中自动特征学习的能力可能会极大地增加未来的建模实践。2.5. 估计误差更具挑战性的问题是DNN的估计误差,特别是因为较小的近似误差总是与较大的估计误差相关。具体而言,问题是当DNN的参数数量过大时,它是否具有良好的有界估计误差。为了解决这个问题,我们将给出两个证明。

15
mingdashike22 在职认证  发表于 2022-6-11 00:37:21
虽然两者都依赖于经验过程理论,但第一种方法使用的是收缩不等式,它比第二种基于VC维度的证明提供了更严格的上界。基于经验过程理论的证明表明,DNN中预测和解释损失的估计误差可以是有界的,或者至少由土地规则化控制。我们认为这一部分是至关重要的,因为经验过程理论为依赖于用于个人选择建模的高维统计工具的未来研究提供了新的基础。我们在下面的章节中只列出了关键命题,附录II中提供了详细的证明。定义7。经验Rademacher复杂性定义为^Rn(F | S)=Ehsupf∈FNNXi=1if(xi)一(15)我∈ {+1, -1} 概率为[0.5,0.5];F | SDE注意到投射到样本S的函数类F。命题2。^f的估计误差可由Rademacher复杂度上界[L(^f)- L(f*F) ]≤ 2ES^Rn(lo F | S)(16)提案2的证明见附录II。A、 Rademacher复杂性度量数据集S上函数类F条件的复杂性。命题2表明,估计误差可以由函数类l的复杂性上界oF、 定义为loF={lof(x)| f(x)∈ F} 。直观地说,随着函数类f变得更大,很难搜索最佳模型^f。Italso与传统统计学一致,因为VC维度越高或参数越多(函数类越复杂),估计误差越大。具体而言,命题2可用作预测和解释损失估计误差的上限:命题3。预测损失的估计误差可以(间接)为上界[L0/1(^f)-^Lγ(^f)]≤γES^Rn(F | S)(17)命题4。

16
可人4 在职认证  发表于 2022-6-11 00:37:24
解释损失的估计误差可以是上界byES[Le(^s)- Ls(s)*F) ]≤ 4ES^Rn(F | S)(18)命题3和命题4的证明见附录II。B和II。C、 命题3通过使用γ-裕度误差(定义见附录II.B),提供了ES[L0/1(^f)]的上限。而左手侧与ES不完全相同[L0/1(^f)- L0/1(f*F) ,则γL(F)和γES^Rn(F | S)都可以在实践中计算。与预测损失的估计误差相比,解释部分更容易,命题4表明,解释损失的估计误差由Rademacher复杂度上界,直到一个常数。剩下的一个问题是如何为DNN的Rademacher复杂性提供有效的上界。提案5。设Hdbe是域X(X)上深度为D的一类神经网络∈ B(d)),其中每个参数矩阵Wjhas Frobenius范数最多为MF(j),其一个完整范数最多为M(j),并具有ReLU激活函数。然后利用收缩不等式,DNN(F)的拉德马赫复杂度可以上界为^Rn(F | S)。O(√对数d×QDj=12M(j)√N) (19)文献[25]中发现的最紧密的界限是:Rn(F | S)。√日志d×(√2对数D+1)×QDj=1MF(j)√N(20)提案6。具有0/1损失的DNN的Rademacher复杂度可由VC维数^Rn(l)上界o F) 。4rv log(N+1)N.4rT D log(T)×log(N+1)N(21),其中T表示参数总数,D表示DNN的深度【6】。命题5描述了影响估计误差上界的重要因素,包括输入维度d、各层M(j)或MF(j)的参数范数以及样本大小。结果是直观的:样本量越大,输入维数和参数范数越小,DNN的估计误差越有界。

17
何人来此 在职认证  发表于 2022-6-11 00:37:27
附录II提供了命题5和命题6的证明。D和II。E、 命题5和命题6之间的差异揭示了关于估计误差的最重要信息:研究人员不必像命题6那样计算v和N的比率,而可以像命题5那样计算每一层系数对估计误差上限的范数。当研究人员选择一种特定的DNA体系结构时,参数的总数是固定的,因此很难通过VC维度控制Rademacher的复杂性。相反,各层M(j)中的权重规范可以通过颜色规则化来控制。因此,命题5以及命题3和命题4提供了有效且比传统VC维度视角更严格的估计误差上界。上述结果在很大程度上依赖于近二十年来非渐近统计学习理论,尤其是经验过程理论的进展。一般介绍参见【12、65、2、66、63】;对[64,63,57,6]关于基于VC维数的DNN的Rademacher复杂度界的证明;关于基于收缩不等式的DNN的Rademacher复杂性界的证明,参见[25,46,5,4]。2.6. 到目前为止,我们已经为两个维度和四个象限提供了具体的数学公式和理论讨论,这些定义了我们的理论框架,如表1所示。从历史的角度来看,这两个方面都很重要。估计和近似误差之间的权衡是统计学习理论中的一阶分解[64、63、65]。正如LeoBreiman(2001)[13]指出的那样,预测与解释标志着两种统计文化的差异,最近Mullainathan和Spiess(2017)[45]再次指出了这一点。

18
何人来此 在职认证  发表于 2022-6-11 00:37:30
在我们的研究中,从理论角度来看,这两个维度可以用来连接经典的低维LDCMS和新的高维DNN模型。近似误差估计误差预测损失预测损失近似误差*F)- L0/1(f*)]预测损失估计误差[L0/1(^f)- L0/1(f*F) 解释损失近似解释损失误差*F)- Le(s)*)]解释损失估计误差- Le(s)*F) 表1:理论框架的两个维度3。实验3.1。实验设计实验包括两部分:一部分是三个模拟数据集,另一部分是NHTSdataset。模拟数据集和真实数据集的实验在其目的方面是互补的。通过蒙特卡罗模拟,底层真实数据生成过程(DGP;例如*(x) 或f*(x) )是已知的,因此我们可以计算与s相关的近似和估计误差*(x) 和f*(x) ,这在真实数据集的实验中无法完成。另一方面,真实的数据集揭示了真实的决策过程,在蒙特卡罗模拟中,有时必须对其进行任意假设。在这两个实验中,我们将具有固定超参数的DNN架构与具有线性效用规范的oneBNL模型进行了比较。DNN结构有5层,每层100个神经元,以及ReLU激活功能。DNN培训使用标准ERM程序,包括初始化(29)、Adam优化(35)和轻度正则化。所有oursimulations中的BNL仅使用线性规格。同样,BNL的这种线性规范并不限制我们讨论的一般性,因为任何基于领域知识的实用规范都可以作为输入提供给DNN。DNN的理论性质与参数和超参数的具体选择没有太大差异。

19
能者818 在职认证  发表于 2022-6-11 00:37:33
BNL和DNN广泛代表了手工和自动公用设施规格之间的差异,BNL型号和DNN的规格选择对于本研究而言并不重要。蒙特卡罗模拟实验包括三个场景,代表了研究人员在现实中面临的三个典型案例。这三种情况因实际DGP相对于Fand F的“位置”不同:(1)F*∈ 风扇f*∈ F(2) f级*6.∈ 风扇f*∈ F(3) f级*6.∈ 风扇f*6.∈ F、 场景1表示一个简单的BNL是真正的DGP的情况,它属于BNL和DNN的两个模型类,因此BNL和DNN的近似误差均为零。Secnario 2表示真实DGP比BNL更复杂的情况,因此BNL的近似误差大于零,而DNN的近似误差仍然为零。场景2通常发生在信息完整,而modeltraining中使用的功能在choice建模中指定错误的情况下。情景3表示两个BNLand DNN都有严格的正近似误差,当忽略重要变量时会发生这种误差,传统上称为忽略变量偏差。就f、f和f之间的函数关系而言*, 这三种情况都是详尽无遗的。我们的模拟还改变了样本大小和输入变量的数量,以证明估计误差是如何变化的,这基于我们关于DNN测试误差的理论(命题5)。蒙特卡罗模拟中的样本量从100个(调查中可能最小的一个)到100万个(现有基于交通调查问卷或观察性调查中观察到的最大数量)。输入变量的数量是20或50,这在选择分析中很典型。对于每个实验,我们分析预测和解释损失的四个象限、估计和近似误差,映射回表1中的理论框架。

20
可人4 在职认证  发表于 2022-6-11 00:37:36
模拟的更多细节见附录III。NHTS数据集的实验分析了出行模式选择和出行目的选择,这是过去研究中分析的两种流行出行行为【20、69、16】,样本大小从100到50万不等。之所以选择NHTS数据集,是因为它覆盖了整个美国,并且是仅有的样本量在100万量级的数据集之一。由于缺乏真实的数据生成过程,估计和近似误差的分解对于真实数据集的实验是不可能的,但我们讨论了基于DNN的选择模型的预测和解释。3.2. 三个模拟数据集实验3.2.1。场景1在场景1中,s*(x) =σ(hw,xi),其中σ是Sigmoid函数,w是随机生成的变量,取{-1,+1}值的概率相等,x生成为多元高斯分布。在图2中,上排显示了模拟的预测损失(图2a和2b)和解释损失(图2c和2d),以及20和50个输入变量。在每个子图中,y轴代表预测或解释损失的值;x轴表示样本大小;每个点是一个训练结果,红色代表DNN,蓝色代表BNL;红色和蓝色曲线是样本量条件下损失的平均值。黑色虚线表示可能的最小损失,用于测量每个DGP中的随机性量。在场景1中,红色曲线和黑色虚线之间的间隙是估计误差,因为它正好是ES[L(^f)- L(f*F) 】。黄色曲线表示基于命题5的估计误差理论上限。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 02:35