楼主: 可人4
1088 29

[量化金融] 用于选择分析的深度神经网络:提取完全经济 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-23 19:42:02
重要的是,这些经过训练的神经网络可能具有非常相似的预测性能,因此研究人员很难选择最终模型进行解释。第三,DNN中的选择概率函数可能是局部不规则的,因为它们的梯度可以是爆炸的,或者函数本身是非单调的,这两个都是在鲁棒DNN框架下讨论的。当选择概率函数的梯度呈爆炸式增长时,很容易找到敌对输入x,即-接近初始x(| | x- x | | p≤ ) 但它被错误地预测为与最初的x不同的标签,具有很高的可信度。这种类型的系统并不健壮,因为它们很容易被敌对的例子x所愚弄。事实上,已经发现DNN缺乏健壮性【76100】。即使是一个小的 当正确的标签应与初始输入图像x相同时,输入图像x引入扰动,DNNs将新生成的图像x标记为具有极高可信度的错误类别[100,37]。因此,DNN缺乏稳健性意味着可选择函数和梯度的局部不规则模式,这是DNN解释的关键信息。XXXXX SSS图。1、前馈DNN架构(7个隐藏层*100个神经元)3。模型3.1。DNNs用于选择分析DNNs可用于选择分析。让我们*k(xi)表示单个i从[1,2,…,k]个备选方案中选择备选方案k的真实概率,其中xidenoting输入变量:s*k(xi):Rd→ [0, 1]. 个人i的选择yi∈ {0,1}Kis从多项式随机变量中采样*k(xi)选择k的概率。将DNN应用于选择分析,选择概率函数为:sk(xi)=eVikPjeVij(1),其中Vijand Vikare是DNN Softmax激活函数的第j和第k个输入。Vik采用逐层形式:Vik=(gkmo 克-1.

12
nandehutu2022 在职认证  发表于 2022-6-23 19:42:05
o g级o g) (xi)(2)其中,每个gl(x)=ReLU(Wlx+bl)是线性和直接线性单位(ReLU)变换的组合;GKMRE表示将最后一个隐藏层转换为备选方案k的效用;m是DNN中的总层数。图1显示了一个具有20个输入变量、5个输出备选方案和7个隐藏层的前馈DNNarchitecture。灰色节点表示输入变量;蓝色代表隐藏层;红色代表软件激活功能。图1中的逐层架构反映了方程式2的组成结构。DNN中Softmax层的输入可以视为实用程序,与经典DCM中的输入相同。DNNs中的这种效用解释由McFadden(1974)[71]中的引理2显示,这意味着Softmax激活函数等效于随机效用最大化(RUM)框架下具有Gumbel分布的随机效用项。因此,DNN和MNL模型都在RUM框架下,它们的差异只存在于实用规范中。换句话说,输入到DNNs最后一个Softmax激活函数的输入可以被解释为实用程序;Softmax激活函数的输出是选择概率;该Softmax函数之前的转换可视为效用函数的具体化;而Softmax激活函数可以看作是效用值的比较。尽管它们很相似,但DNN是一个比MNL模型更通用的模型族,这种关系可以从不同的角度来理解。20世纪90年代发展起来的通用逼近器理论表明,当宽度变为有限时,只有一个隐藏层的神经网络是渐近通用逼近器[25,51,50]。

13
何人来此 在职认证  发表于 2022-6-23 19:42:08
最近,这种渐近观点引出了一个更为非渐近的问题,即当一个广度和浅度的神经网络已经足够强大时,为什么深度是必要的。可以证明,在许多设置中,DNN可以用比浅层神经网络更少的神经元数来逼近函数【23,86,81】。换句话说,DNN可以被视为一种高效的通用近似器,因此比MNL模型更通用,MNL模型是一种具有零隐藏层的浅层神经网络。然而,更通用的模型族会导致较小的近似误差和较大的估计误差。由于样本外预测误差等于近似和估计误差之和,因此从理论角度来看,DNN不一定优于MNL模型。DNNs的主要挑战是其巨大的估计误差,这与其非凡的逼近能力有关。为了在近似误差和估计误差之间找到最佳平衡,需要使用超参数搜索程序,因为超参数(如DNN的深度和宽度)可以控制模型的复杂性。附录I提供了关于DNN大估计误差的简要理论证明。统计学习理论的最新研究中有更详细的讨论【104、107、36、75、7、64、6】。3.2. 从DNN计算经济信息DNNs中的效用解释使我们能够得出传统上从DCMs获得的所有经济信息。^Vk(xi)表示备选方案k的估计效用,^sk(xi)表示估计的选择概率函数,表1总结了计算经济信息的公式,该公式分为两类。

14
可人4 在职认证  发表于 2022-6-23 19:42:11
选择概率、选择预测、市场份额、替代模式和社会福利通过使用函数(选择概率或效用函数)导出。概率导数、弹性、MRS和VOT是从选择概率函数的梯度中推导出来的。这种差异是由于函数及其梯度之间的不同理论性质造成的。表1中的公式可以应用于DNN和MNL,但MNL对于每一条经济信息都有一个更明确的参数形式,而DNN没有[101]。DNN解释经济信息的过程与经典DCM有很大不同,原因如下。在DNNs中,经济信息是通过使用全函数^sk(xi)和^Vk(xi)直接计算的,而不是单个参数^w。这集中于估计函数的一致收敛性证明是可能的,而梯度则更难,因为估计函数甚至不可区分。表1:DNNs和DCMs中计算经济信息的公式;F代表函数,GF代表函数的梯度。DNNs分类中的经济信息公式选择概率^sk(xi)f选择预测argmaxk^sk(xi)f市场份额pi^sk(xi)f替代方案与k^sk(xi)/sk(xi)f社会福利piαilog(PKk=1e^Vik)+C社会福利的变化piαi日志(PKk=1e^Vik)-日志(PKk=1e^Vik)F备选功率的概率导数。r、 t.xij^sk(xi)/XIJG备选方案k w.r.t.的弹性。

15
大多数88 在职认证  发表于 2022-6-23 19:42:14
xij公司^sk(xi)/xij×xij/^sk(xi)gfiji和xij之间的边际替代率-^sk(xi)/xij公司^sk(xi)/XIJGFOT(xijis时间和xijis货币价值)-^sk(xi)/xij公司^sk(xi)/DNN中的xijGFon函数而非单个参数是不可避免的,因为非凸高维DNN训练导致参数估计不稳定,而MNL由于其经验风险最小化的凸性,在每次训练中都有相同的估计。这种对全功能的关注也与其他关于DNN解释的研究一致:最近有大量研究关注DNN的全功能解释,而没有一项研究关注单个神经元/参数[72、48、4、87]。因此,DNN解释可以看作是一种端到端机制,而不需要将单个参数作为中间过程。此外,DNN的解释是一个预测驱动的过程:经济信息是在一个模型被训练为具有高度预测性之后,以事后的方式生成的。这种预测驱动的解释利用了DNN的自动特征学习能力,与依赖手工实用功能的经典DCM相比也是如此。这种预测驱动的解释基于这样一种信念:“当预测质量(一贯)很高时,一定已经找到了某种结构”[74]。3.3. 用于选择分析的MNL在我们的实证实验中,使用具有线性规格的经典MNL作为DNN的参考点。

16
kedemingshi 在职认证  发表于 2022-6-23 19:42:17
MNL模型中的效用函数如下所示:Vik=β0,k+βTx,kxik+βTz,kzi,as k 6=ref(3)Vik=βTx,kxik,as k=ref(4),其中Vik是备选方案k的确定性效用值;β0,Kre表示备选方案k的备选规范;βx,kre表示替代特定变量xik的参数;βz,kre表示各个特定变量zi的参数;ref表示referencealternative。对于参数识别,根据是否使用替代方案作为参考,公用设施规格有所不同。该公式是最简单的规范,可确保选择建模中的参数识别。更通用的形式是Vik=β0,k+βTx,kφx(xik)+βTz,kφz(zi),其中φx和φzr表示用于特征变换的函数,例如二次和对数变换。本研究使用线性规格有两个原因。首先,为了公平起见,MNL和DNN都使用线性输入,因此它们的比较没有偏差。其次,为了简单起见,虽然我们只使用线性规范,但未来的研究可以将DNN与具有特征转换的MNL进行比较。实验设置实验使用两组DNN模型,称为随机DNN和选择性DNN。随机DNN是指在特定的超参数空间内随机选择不同的超参数进行训练的DNN,选择性DNN是指对DNN进行重复训练,其中固定的超参数在随机DNN中表现最好。4.1. 随机DNN:超参数训练随机DNN组是通过随机探索预先指定的超参数空间并使用每个DNN训练的采样超参数集来构建的【14】。

17
大多数88 在职认证  发表于 2022-6-23 19:42:20
超参数空间由建筑超参数组成,包括DNN的深度和宽度;以及正则化超参数,包括土地利用常数和辍学率。随机生成100组超参数进行比较。超参数空间的详细信息见附录II。除了100个模型中的超参数不同外,所有DNN模型都共享某些固定组件,包括隐藏层中的ReLU激活功能、最后一层中的Softmax激活功能、Gloret初始化和Adamoptimization,遵循标准实践【38,34】。形式上,超参数搜索表示为^wh=argminwh∈{w(1)h,w(2)h,…,w(S)h}argminwL(w,wh)(5),其中L(w,wh)是DNN训练旨在最小化的经验风险函数,w代表DNN体系结构中的参数,wh代表超参数,w(S)hre表示从超参数空间随机抽样的一组超参数,而^whis是具有最高预测精度的chosenhyperparameter。除了这种基线随机搜索外,还可以使用其他方法进行超参数训练,例如强化学习或贝叶斯方法[97121],这超出了我们的研究范围。4.2. Opt-DNNs:使用固定的超参数进行训练超参数搜索后,我们检查一组最佳的超参数,以获得最高的预测精度。通过使用相同的训练集和固定的优化超参数集,我们对DNN模型再进行100次训练,以构建OPTDNN组。

18
mingdashike22 在职认证  发表于 2022-6-23 19:42:24
每项培训都试图将以固定超参数为条件的经验风险降到最低,如下所示。minwL(w,^wh)=minwNNXi=1l(yi,sk(xi;w,^wh))+γ| w | p(6),其中w表示参数;^wh代表最佳超参数;l()是损失函数,通常是交叉熵损失;N是样本量。γ| | w | | |预存LP罚金(| | w | | p=(Pj(wj)p)p),L(套索)和L(岭)罚金是LP罚金的两种特殊情况。注意,DNN具有模型不可识别的挑战,因为等式6中的目标函数不是全局凸的。DNN面临着局部不规则性的挑战,因为这种对全局预测风险的优化不足以保证局部不规则性。这两个问题将在第5.4.3节中详细说明。数据集我们的实验依赖于两个数据集:在新加坡进行的公开偏好调查和在伦敦公布的偏好数据。新加坡数据集由作者在专业调查公司Qualtrics的帮助下于2017年7月收集。调查开始时,要求受访者报告其家庭和工作地点的邮政编码以及当前的旅行方式。根据受访者的家(起点)和工作(目的地)位置,我们使用谷歌地图API计算了每个印度人的通勤旅行的步行时间、等待时间、车内旅行时间和每种旅行模式的旅行成本。然后使用这些信息自动生成所述偏好部分,这是问卷的大部分。受访者被要求在五种出行方式中进行选择:步行、公共交通、驾驶、共享骑乘和共享自动驾驶汽车,价格和出行时间各不相同。最后,受访者报告了社会经济信息,如性别、教育和收入。Hillel等人公开提供了伦敦数据集。

19
大多数88 在职认证  发表于 2022-6-23 19:42:27
(2018)[46],其中作者基于伦敦出行需求调查(LTDS)构建了一个新的数据集,通过结合个人出行记录和模式备选方案沿线的出行轨迹。作者从LTD开始,删除了具有相同始发地-目的地邮政编码的旅行,将每次旅行指定为四种主要旅行模式之一(步行、自行车、公共交通和驾驶),并将旅行目的简化为五种目的(B、HBW、HBE、HBO和NHBO)。然后,作者使用谷歌地图API和Oyster卡将旅行时间和价格信息增加到初始LTD中。为了了解不同样本大小和背景的影响,我们从这两个初始数据集构建了三个数据集用于我们的实验:(1)包含8418个观察值的SGP数据集(8K-SGP),(2)包含81086个观察值的LD数据集(80K-LD),以及(3)包含随机抽样8000个观察值的LD数据集(8K-LD)。8K SGP和8K-LD数据集之间的比较揭示了两种背景的影响,而80K LD和8K-LD数据集之间的比较揭示了样本量的影响。通过在Python的Numpy模块中使用默认的随机种子,将所有数据集分割为训练集和测试集。8K-SGP中训练和测试集的样本大小分别为7015和1403,而80K-LDP中训练和测试集的样本大小分别为72977和8109。在这两个数据集中,选择变量y都是出行模式选择,包括SGP数据集中的五个备选方案(步行、乘坐公共交通、共享骑乘、使用自动驾驶车辆和驾驶),以及LD数据集中的四个备选方案(步行、骑自行车、驾驶和使用公共交通)。解释变量包括SGP数据集中的20个个体特定变量和替代特定变量,以及LD数据集中的14个变量。有关这两个数据集的汇总统计信息,请参阅附录III。5.

20
mingdashike22 在职认证  发表于 2022-6-23 19:42:30
实验结果本节表明,不使用单个参数从DNN中提取所有经济信息是可行的,并且通过使用大样本、超参数搜索、模型集成和正则化方法,可以提取可靠的经济信息。我们将首先介绍预测精度,然后介绍选择概率、替代模式、市场份额和社会福利的基于函数的解释,最后介绍概率导数、弹性、VOT和异质偏好的基于梯度的解释。本节总结了应用于8K-SGP、80K-LD和8K-LD数据集的两组DNN模型(Opt DNN和Random DNN)和linearMNL模型。5.1. 预测精度图2a-2g显示了三个结果。首先,Opt DNN平均比MNL模型的预测精度高出约2到8个百分点,这与之前发现DNN优于MNL的研究一致[84、77、55]。其次,在8K-SGP和80k-LD数据集中,Opt-DNNs的预测精度高于随机DNNs,这表明,选择correctphyperparameter对提高DNNs的模型性能起着关键作用。第三,如图2d和2e所示,较大的样本量提高了DNN的预测精度。5.2. 基于功能的解释5.2.1。选择概率函数选择概率函数如图3所示。由于选择概率函数s(x)的输入具有高维,因此s(x)通过计算驾驶概率来可视化,仅改变驾驶成本,保持所有其他变量在样本平均值不变。(a) Opt DNNs(8K-SGP)(b)随机DNNs(8K-SGP)(c)MNL(8K-SGP)(d)Opt DNNs(8K-LD)(e)Opt DNNs(80K-LD)(f)随机DNNs(80K-LD)(g)MNL(80K-LD)图2。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 13:29