楼主: 大多数88
1480 36

[量化金融] 多任务学习深度神经网络结合显示和陈述 [推广有奖]

21
可人4 在职认证  发表于 2022-6-11 08:36:51
这些结果证明了MTLDNNspecific架构(图1)的有效性,与标准前馈DNNarchitecture的有效性形成对比。除了建筑设计之外,专门为MTL设计的正则化方法也很有帮助。图3c显示了预测精度如何取决于λ,λ是RP和SP的任务特定层之间相似性的最常用术语。当λ变得太大或太小时,这意味着RP和SP之间的任务特定层要么太相似,要么太不同,MTLDNN模型不能很好地执行。只有当RP和SP参数相差到适当程度时,在我们的示例中λ取0.01,MTLDNN架构才能实现最佳性能。总的来说,这些MTLDNN特定的软约束,包括体系结构设计和正则化方法,极大地提高了MTLDNN的性能。FC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLU(a)六种不同的架构:(5-0);(4-1);(3-2);(2-3);(1-4);(0-5)(b)六种架构的性能(c)预测精度和λ图3。建筑设计和规范化;红点和蓝点是个体模型的结果;蓝色线连接所有模型的平均预测精度,红色线连接预测精度最高的模型。硬约束。

22
mingdashike22 在职认证  发表于 2022-6-11 08:36:54
作为与软约束的比较,我们检查NL-C中的硬约束是否有助于提高NL-NC的模型性能,因为硬约束最常用于组合不同来源数据集的经典方法。如表1所示,NL-C和NL-NC的模型性能非常相似,因为NL-C和NL-NC中RPA和SP的联合性能仅相差0.4%,这远远小于MTLDNN和NL模型之间5%的精度差异以及NMTLDNS和DNN之间约6.4%的精度差异。这一结果与我们之前的讨论一致:领域专家施加的硬约束通常是有限的,它们不如MTLDNN模型中的软约束那么通用和灵活。数据扩充。数据扩充有时被认为是MTLDNNs高性能的一个原因【15】,尤其是当研究人员关注一项任务的性能而不是联合性能时。这是因为MTLDNNs本质上增加了更多的观测值和任务,用于预测一个任务,而不是只为这一个任务收集观测值的模型。比较DNN-SPT和DNN-JOINT或MNL-SPT和MNL-JOINT有助于确定这种数据扩充思想可以在经典统计讨论中重新定义为提高估计效率[7]。数据扩充的有效性。事实证明,数据扩充本身似乎对性能改进没有任何影响。与DNN-SPT和DNN-JOINT相比,DNN-JOINT在单独的RP和SP数据集中并没有改善DNN-SPT的性能,尽管DNNJOINT在RP和SP任务中使用的样本量比DNN-SPT大。MNL-SPT和MNL-JOINT的结果也类似。我们认为,这一结果的原因再次与任务之间的约束有关。

23
大多数88 在职认证  发表于 2022-6-11 08:36:58
虽然联合训练实际上使用了比单独训练更多的观察,但在两项任务中添加不适当的约束可能会扭曲联合模型并恶化性能。其他超参数。图4显示了MTLDNN的其他超参数在影响其预测精度方面的作用。(1) 温度(图4a)。当我们通过模拟NL模型中的比例因子将温度因子设计到MTLDNN框架中时,结果表明温度因子并不重要。前10%的模型的温度值可能在0.2到3.0之间。(2) λ和λ(图4b和4c)。与实践状态类似【27】,一些温和的正则化项有助于改进预测:最佳λ约为0.01,最佳λ约为0.0001。(3) 至于深度和宽度(图4d、4e和4f),更深和更宽的体系结构似乎不能提高性能。这一部分与我们之前的讨论一致,即单纯地增加模型复杂性并不一定会提高模型性能,因为更大的模型复杂性会导致更高的估计错误。此外,深度和宽度本身并不反映MTL的特殊性,与更有效的MTLDNN特定建筑设计相反,例如共享和任务特定者之间的比例。总体而言,至少在这一RP和SP数据集中,MTLDNN特定的正则化方法,如λ和MTLDNN特定的架构设计,似乎比这些通用超参数更重要。5.3. 为AV采用解释MTLDNN MTLDNN不仅具有预测性,而且具有可解释性。DNN至少可以用两种方式进行解释:可视化显示选择概率如何随输入值变化,以及根据输入变量的弹性值对输入变量进行重要链接。

24
能者818 在职认证  发表于 2022-6-11 08:37:00
这两种方法通常用于解释DNN模型【59、53、9、3、56】。图5显示了SP调查中选择五种出行模式的概率如何随AV成本、AV等待时间、AV车内出行时间、年龄和收入而变化。前三个变量是最重要的替代特定变量,后两个是重要的社会经济变量。AV是特别关注的焦点,因为它是针对SPR设计的新技术,但实际上并不存在(RP)。如图5a、5b和5c所示,人们对这些AV特定成本变量的反应很高。例如,选择AV的概率从大约50%下降到只有5%,因为AV成本从0美元增加到20美元;同样,随着AV车内行驶时间从0分钟增加到20分钟,这种可能性从30%左右下降到5%。图5a和5c还显示,驾驶是AV的主要替代行驶模式。相对而言,前10个MTLDNN模型的概率超参数包含在附录III(a)温度分布(b)λ(c)λ(d)深度(共享)(e)深度(特定)(f)宽度图中。4、其他超参数;红点和蓝点是单个模型的结果;蓝色线连接所有模型的平均预测精度,红色线连接预测精度最高的模型。如图5e和5d所示,采用AV的概率对社会经济变量的敏感性要低得多:就年龄和收入的不同值而言,采用AV的概率曲线几乎无处不在。表2显示了AV相对于输入变量的平均选择弹性概率,按弹性值的大小排序。

25
大多数88 在职认证  发表于 2022-6-11 08:37:03
与图5侧重于选择概率函数的可视化不同,表2计算了样本的平均弹性值,作为人口弹性的代表。结果表明,结果与图5中显示的结果差别不大。AV成本和车辆行驶时间增加1%会导致选择使用AV的概率分别减少0.981%和0.905%,而年龄和收入的影响相对较小,值为-分别为0.561和0.102。这些结果表明,从MTLDNN选择模型中提取可靠的经济信息在方法上是可行的,AV的采用在很大程度上仍取决于其成本结构,这与长期以来的出行行为分析结果一致。结论与讨论本研究引入了一个MTLDNN框架,将RP和SP结合起来进行需求分析。结合RP和SP进行预测的实际重要性,以及使用深度学习模型回答经典问题的理论兴趣,推动了这一研究。本研究得出以下三个主要结论。(a) AV成本(b)AV等待时间(c)AV车内时间(d)年龄(e)收入图。5.

26
大多数88 在职认证  发表于 2022-6-11 08:37:07
选择概率函数随输入值变化;光照曲线是单个MTLDNN结果;黑暗势力是前十位车型的平均水平。可变弹性AV成本-0.981AV车内时间-0.905Age-0.561AV等待时间-0.375Income 0.102表2:选择AVFirst的平均弹性,使用MTLDNN框架结合RP和SP数据集在理论上是可行和有效的,因为它利用了DNNand中的自动特征学习能力,并施加了软约束和灵活约束,以捕获任务之间的相似性和差异。由于近似能力和软约束(包括不同的体系结构和正则化方法),MTLDNN比使用NL结合RP和SP的经典方法更通用,尽管MTLDNN由于其高模型复杂性可能会触发更大的估计误差。其次,MTLDNN在经验上优于六个基准模型,尤其是在有参数约束和无参数约束的情况下,其预测精度优于NL模型约5%。对于RP和SP数据集中MTLDNN模型的超参数选择和架构设计而言,这种性能改进是稳健的。这种性能改进主要归因于DNN体系结构和多任务学习问题的正则化,而不是标准前馈深层体系结构的一般逼近能力。最后,使用基于梯度的方法对MTLDNNs的结果进行解释。我们发现,驾驶和AV之间存在着很强的替代模式,AV特定变量(时间和成本)比社会经济变量发挥着更重要的作用。它不一定会通过天真地应用标准DNNarchitectures、增加深度和宽度、使用默认正则化方法而不根据具体问题调整这些因素来提高模型性能。

27
nandehutu2022 在职认证  发表于 2022-6-11 08:37:09
这一发现部分回答了以下研究:通过将标准DNN结构直接应用于出行模式分析,在经典选择模型上仅发现有限的DNN改善或没有改善[50,48]。事实上,对于多任务学习,已经创建了许多新的MTLDNN架构,以比我们研究中使用的架构更微妙的方式捕捉多个任务的相似性和差异【43、28、46、55】。为RP和SP探索这些MTLDNN体系结构是一个很有前途的未来研究方向。研究人员还可以探索如何专门为RP和SP设计新的MTLDNN体系结构。此外,由于MTLDNN只是一种特定的DNN体系结构,未来的研究可以通过使用顺序建模技术自动搜索新的MTLDNN体系结构【21,64,76,77】。MTLDNNs和NL之间存在着一种有趣的关系,这反映在它们可视化体系结构的相似性上。请注意,MTLDNN的元体系结构正是一个树形结构(如图6b所示),这导致我们猜测MTLDNNs是否可以用于NL模型的所有应用。然而,尽管它们在视觉上很相似,但MTLDNN的数学公式与NL的数学公式之间的关系尚不清楚,因为MTLDNN中的树结构是输入特征的计算图,而NL中的树结构反映了随机误差项的协方差矩阵信息。尽管如此,这种相似性非常有趣,我们鼓励未来的研究探索MTLDNNs和NL模型之间更深层的关系。FC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUFC&ReLUINPUTSTASK 1输出stask 2输出共享层任务特定层(a)MTLDNN架构RPSP(b)MTLDNNFIG中的隐式树结构。6.

28
能者818 在职认证  发表于 2022-6-11 08:37:13
MTLDNN和NL中的共享树结构虽然本研究将RP和SP组合作为一个特定案例,但MTLDNN是组合不同数据源的一种通用方法。在交通领域,研究人员使用了同时估计(或一般的结构方程模型(SEM))来联合分析不同类型的出行需求,如汽车所有权和模式选择【62,75】、出行链和出行模式【73】、出行时间和车辆行驶里程(VMT)】【22】;旅游需求和态度因素【45、47、61】;以及活动模式和出行需求【39,24】。此MTLDNN框架可以轻松应用于所有这些情况,并扩展到任务数大于两个的场景。由于MTLDNNs在结合RP和SP方面的强大功能,在这些情况下,可能会形成TLDNS以实现更好的性能。最后,对于MTLDNN,RP和SP的应用并不是最简单的,因为理论上的MTLDNN讨论通常只关注同质情况。例如,当使用NMTLDNS组合两个城市的出行模式选择时,由于两个任务的输入和输出维度匹配良好,因此任务是一致的。相反,RP和SP的任务是异质的,因为SP的输出比RP多一个可选变量,SP的输入具有RP中不存在的AV特定变量。即使在我们当前的框架内,仍然存在的问题是如何有效地设计这两个任务的输入变量,以提高模型性能。这不是一个简单的问题,因为可以应用许多不同的方法[26]。MTLDNN框架中的其他未知因素是由于对DNN和统计问题之间关系的研究普遍不足造成的【13】。

29
可人4 在职认证  发表于 2022-6-11 08:37:16
例如,RP和SP可以关联为面板结构,因为未观察到的随机效用可以关联;或者RP和SP在个体间都具有固有的偏好异质性【14,11】。许多统计讨论都涉及随机效用项的协方差结构,而这在DNN中并不存在,至少以一种明显的方式存在。我们认为,如果研究人员能够理解如何使用DNN解决异质性和内生性等统计问题,就必须充分发挥MTLDNNs的威力。简单地说,研究人员有很多机会将此MTLDNN用于其他类型的应用,并回答其他理论问题。凭借MTLDNN体系结构的灵活性和强大功能,我们相信这些进一步的研究方向将为行为和政策分析以及需求建模方法提供新的见解。参考文献[1]Martin Anthony和Peter L Bartlett。神经网络学习:理论基础。剑桥大学出版社,2009年。[2] Andreas Argyriou、Theodoros Evgeniou和Massimiliano Pontil。“多任务特征学习”。神经信息处理系统的进展。2007年,第41-48页。[3] David Baehrens等人,“如何解释个人分类决策”。摘自:《机器学习研究杂志》第11期。Jun(2010),第1803-1831页。[4] 彼得·巴特利特和沙哈尔·门德尔森。“Rademacher和Gaussian复杂性:风险边界和结构结果”。摘自:《机器学习研究杂志》第3期。11月(2002),第463-482页。[5] Peter L Bartlett等人,“分段线性神经网络的近紧VC维和伪维界”。In:arXiv预印本arXiv:1703.02930(2017)。[6] Moshe Ben Akiva和Takayuki Morikawa。“根据展示的参考和陈述的意图估计切换模型”。In:交通研究A部分:概述24.6(1990),第485–495页。[7] Moshe Ben Akiva等人。

30
大多数88 在职认证  发表于 2022-6-11 08:37:19
“组合显示和声明的偏好数据”。摘自:MarketingLetters 5.4(1994),第335-349页。[8] Yoshua Bengio、Aaron Courville和Pascal Vincent。“表征学习:回顾与新视角”。摘自:IEEE模式分析和机器智能交易35.8(2013),第1798–1828页。[9] 伊夫·本茨和德怀特·梅伦卡。“brandchoice建模的神经网络和多项式logit:混合方法”。《预测杂志》19.3(2000),第177-200页。[10] 詹姆斯·柏格斯特拉和约书亚·本吉奥。“随机搜索超参数优化”。摘自:《机器学习研究杂志》第13期。2012年2月,第281-305页。[11] 钱德拉·巴特和索尔·卡斯特拉尔。“一个用于建模的统一混合logit框架展示和陈述偏好:制定和应用于旧金山湾区拥堵定价分析”。《运输研究B部分:方法学36.7》(2002),第593-616页。[12] 马克·布拉德利和安德鲁·戴利。“使用混合状态参考和显示的偏好信息估计logit选择模型”。In:理解变革时代的旅行行为(1997),第209–232页。[13] 利奥·布雷曼。“统计建模:两种文化(有作者的评论和反驳)”。摘自:统计科学16.3(2001),第199–231页。[14] 大卫·布朗斯通、大卫·S·邦奇和肯尼思·特拉恩。“各州的联合混合logit模型显示了对替代燃料汽车的偏好”。《运输研究B部分:方法学34.5》(2000),第315-338页。[15] 丰富的卡鲁阿纳。“多任务学习”。《机器学习》28.1(1997),第41-75页。[16] Jonathan D Cohen等人,《测量时间偏好》。国家经济研究局技术代表,2016年。[17] Ronan Collobert和Jason Weston。“自然语言处理的统一架构:具有多任务学习的深度神经网络”。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 17:02