多任务学习深度神经网络结合显示和陈述 - 第2页 - 外文文献专区

11楼

发表于 2022-6-11 08:36:21

方程式3采用标准Softmax激活函数的形式，而SP（方程式4）的激活函数通过T因子进行调整，T因子在DNN文献中被称为“温度”，以改变logits的比例【34】。根据制定的选择概率，我们通过最小化经验风险（ERM）来训练模型：minwr，ws，w，TR（X，Y；wr，ws，w，T；cH）=minwr，ws，w，Tn-NrNrXi=1KrXkr=1ykrlog P（ykr，i；wr，w；cH）-λNsNsXt=1KsXks=1ykslog P（yks，t；wr，w，t；cH）+λ| | w | |+λ| | ws |+λ| | ws- wr | | o（5）方程式5由三部分组成：第一部分-NrPNri=1PKrkr=1ykrlog P（ykr，i；wr，w；cH）是RP的经验风险；第二部分-λNsPNst=1PKsks=1ykslog P（yks，t；wr，w，t；cH）是SP的经验风险；第三部分λ| | w | |+λ| | ws | |+λ| | ws-wr | |是显式正则化。总的来说，方程5包含四个用于显式正则化的超参数（λ、λ、λ、λ）。λ调整RP和SP之间的经验风险比率。本研究通过λ=1同等对待RP和SP中的一个观察结果。λ和λ共同调整共享层和SP特定层的绝对大小：较大的λ和λ会导致较大的权重衰减，降低复杂DNN模型中的估计误差【66】。λ控制RP和SP特定层之间的相似度。随着λ变得非常大，ERM会对NRP和SP特定层之间的巨大差异进行更多惩罚，从而导致RP和SPmodels中的系数共享更多的相似性。由于在我们的案例中，Ws和Wr并不完全匹配，因此Ws用于表示与RP规格重量相对应的SP规格重量。该规范ERM公式和研究人员可以自由选择λ的值，因为其值规范没有明确的规则。我们的选择反映了我们的信念，即每个个体在RP和SP中都是相等的。方程式5中的正则化通常用于MTLDNN研究【19，37】。3.2.

12楼

大多数88

发表于 2022-6-11 08:36:24

RP和SPNL的嵌套Logit模型来自过去的研究【33、12、51、47】。RP和备件中的效用函数假定为beUkr，i=Vkr，i+kr=βTkrφ（xr，i）+kr，i（6）Uks，t=Vks，t+ks=βTksφ（xs，t）+ks，t（7），其中βkrandβks是RP和SP的参数；φ表示基于领域特定知识的特征转换；例如，φ可以表示二次变换，而研究人员认为效用和输入变量之间存在非线性关系。kr，土地ks，皮重随机效用项。人们通常认为kr，土地ks，皮重按一个比例系数：V ar(kr，i）/V ar(ks，t）=1/θ（8）基于NL方法的选择概率函数为：P（ykr，i；βr）=eβTkrφ（xr，i）PKrjr=1eβTjrφ（xr，i）（9）P（yks，t；βs）=eβTksφ（xs，t）/θPKsjs=1eβTjsφ（xs，t）/θ（10），这里βrandβ表示RP和SP中的所有参数。请注意，θ与MTLDNN框架中的温度因子t相似，虽然θ在这里来自于关于随机误差项方差的假设，而T不是。因此，NL中的ERM为minβr，βsR（X，Y；βr，βs）=minβr，βsn-NNrXi=1KrXkr=1ykr，ilog P（ykr，i；βr）+NsXt=1KsXks=1yks，tlog P（yks，t；βs）o（11）这种NL公式与标准NL模型不同，因为受访者在一种选择情景中不会面对所有RP和SP替代方案。因此，研究人员将这种NL方法命名为“人工嵌套logit”模型，其详细信息见【33，12】。3.3. MTLDNN比NL更通用MTLDNN框架比NL更通用，因为它具有自动特征学习能力和软约束，包括架构设计和正则化超参数。首先，MTLDNNs的实用规范（方程式1和2）采用逐层函数形式，这使得DNN成为通用近似器，并具有自动特征学习的能力。

13楼

mingdashike22

发表于 2022-6-11 08:36:27

这种函数形式与NL形成鲜明对比，NL强烈依赖手工特征映射函数φ（）和线性参数规范βrandβs（方程式6和7）。手工构建的特征工程是有问题的，因为建模人员的先验知识很少能完成手头的任务，而这种知识的不完整性会导致NL方法中的功能错误指定和低预测精度。另一方面，MTLDNNs强大的近似能力使其能够近似任何潜在的行为机制，而不依赖于建模者领域知识的完整性。事实上，方程6和7可以在图2a中可视化，其中灰色层表示φ（）变换，绿色和红色层表示β和β的多重化。当研究人员仅使用φ（φ（x）=x的标识映射时，方程6和7可以在图2b中可视化，其中输入直接输入到任务特定层。因此，除了自动与手工特征学习的差异外，MTLDNNs与NL之间的差异也反映了深层和浅层神经网络（DNN与SNN）之间的差异。研究表明，DNN是比SNN更有效的通用近似器[16、42、54]，深度的好处可以解释为什么MTLDNNS比NL具有更强的近似能力。HFEHFEHFEINPUTSTASK 1 OUTPUTSTASK 2 OUTPUTSTASK（a）NL带φ（x）HFEHFEINPUTSTASK 1 OUTPUTSTASK 2 OUTPUTSTASK（b）NL不带φ（x）图2。NL可视化；HFE代表手工制作的功能工程（feature engineeringSecond），而MTLDNNs和NL都包含了捕捉RP和SP之间相似性和差异的机制，MTLDNNs比NL模型具有更软的约束。软约束包括两部分：体系结构设计和正则化方法。

14楼

mingdashike22

发表于 2022-6-11 08:36:30

就架构设计而言，图1是各种MTLDNN架构的原型，这些架构在共享层（M）和任务特定层（M）的数量上有所不同。因此，建筑设计的多样性使MTLDNN能够比NL更灵活地学习基础特征，NL只有固定的浅层建筑，如图2a所示。MTLDNNs中的正则化方法也比NL更灵活。例如，在theNL模型中，研究人员需要指定βkr和βks的相同程度。让βkr，jandβks，jdenote作为RP和SP中价格变量的系数，研究人员选择不限制βkr，j6=βks，jor根据他们的先验信念施加硬约束βkr，j=βks，jb。换言之，研究人员必须选择从RP数据估算的价格系数是否应与从SP数据估算的价格系数先验相同。这个硬约束可以通过在等式11中添加一个惩罚项| |βkr，j来表示- βks，j | |乘以大λ，无约束情况与λ=0相关。因此，方程5中的λ项是RP和SP之间相似性的软控制，它将NL中的硬约束合并为其两个边界点。由于λ的范围从零到较大的值，RP和SP模型的范围从不共享相似性到完全相似性。第二个示例是MTLDNNS与NL中的缩放约束。虽然T因子与NL中的θ因子几乎相同，但重要的是要注意，温度因子并不是MTLDNN框架中控制RP和SP之间可用性尺度差异的唯一超参数。除T外，超参数λ和λ也隐式控制效用尺度。

15楼

kedemingshi

发表于 2022-6-11 08:36:33

当MTLDNNS中参数的总体大小变大（小λ和λ）时，RP和SP更有可能具有更大的效用尺度差异，这意味着RP和SP在其系统中具有不同的随机性。3.4. MTLDNNSMTLDNS作为更通用的模型族，其近似和估计误差并不一定意味着更高的预测精度，因为较大的模型复杂度所获得的较小近似误差可能会被较大的估计误差抵消。基于统计学习理论，更复杂的模型通常具有较小的近似误差（偏差），但估计误差（方差）较大【68，66】。这个问题可能是MTLDNNs的一个潜在弱点，因为它的功能复杂性要大得多，通常由Vapnik-Chervonenkis（VC）维度来衡量[65，66]。具体而言，DNNSI的VC维度大致与其参数数量和深度成正比，因此每层有100个神经元的简单5层DNN的VC维度为c×250000（O（100×5×5））[5]。另一方面，NL模型的VC维数与其参数数量成正比：在大约20个输入变量的情况下，NL的VC维数仅约为c×20。虽然这种VC维透视图不是估计误差的最佳上界[25，49]，但它为本文的目的提供了充分的见解。一般来说，虽然DNN在函数类关系方面比多项式logitmodels（MNL）更通用[16、42、54]，但DNN由于其高模型复杂度和相应的大估计误差，可能会表现不佳。因此，我们需要进行实证实验来评估MTLDNNs和NL的性能。这种权衡传统上被称为偏差方差权衡。

16楼

可人4

发表于 2022-6-11 08:36:37

偏差类似于近似误差，方差类似于估计误差。更一般的介绍，读者可以参考高维概率和统计学领域的最新研究【69、67、4、1】4。实验设置4.1。数据一项在线调查旨在探索AV的旅游需求以及决定AV采用的潜在因素。这项在线调查是在一家专业调查公司Qualtrics的帮助下从新加坡收集的。通用域名格式。该调查包括一部分revealedpreference（RP）调查、一部分声明偏好（SP）调查和一部分用于引出社会经济变量。RP中的出行模式选择包括步行、公共交通、驾驶和共享乘车；SP调查中增加了按需AV使用，作为额外的出行模式。我们总共收集了1592个RP选项答案和8418个SP选项答案。4.2. TrainingRP和SP数据按4:1的比例分为训练集和测试集。MTLDNN训练中的一个挑战是其大量的超参数，MTLDNN的性能在很大程度上取决于超参数。为了解决这个问题，我们指定了一个超参数空间，并在该空间内随机搜索，以识别导致高预测精度的超参数[10]。设Sh表示超参数空间。我们从SH中抽取一组超参数sc（q）hf，并在测试集中选择预测精度最高的一组。形式上，^cH=argmincH∈{c（1）H，c（2）H，…，c（S）H}R（X，Y；^wr，^ws，^w，^T；cH）（12），其中R（X，Y；^wr，^ws，^w，^T；cH）是估计的经验风险（方程式5）；S=1500代表本研究中随机抽样的总数。超参数空间的详细信息包含在附录I中；附录II中的一些描述性汇总统计数据。5、实验结果5.1。

17楼

kedemingshi

发表于 2022-6-11 08:36:39

模型性能表1总结了MTLDNN（Top 1）、top10模型上的MTLDNN集成（MTLDNN-E）、RP和SP的独立深层神经网络（DNN-SPT）、RP和SP关节的深层神经网络（DNN-joint）、带参数约束的NL（NL-C）、带非参数约束的NL（NL-NC）、RP和SP的独立多项式logit模型（MNL-SPT），RP和SP的联合多项式logit模型（MNL-JOINT）。在表1中，面板1报告了测试和培训集中RP和SP、单个RP和单个SP数据的联合预测精度；面板2总结了八种模型在四个特征方面的差异：自动特征学习、软约束、硬约束和数据扩充。DNN家族中的模型具有自动特征学习的能力；只有两个MTLDNN具有软约束；只有具有参数约束的NL才具有硬约束；联合训练模型增加了数据和任务。

18楼

可人4

发表于 2022-6-11 08:36:42

总的来说，六个非MTLDNN模型被设计为性能比较基准，并用于解开MTLDNNs表现良好的原因。MTLDNN（Top1）MTLDNNE（Top10）DNNSPTDNJOINTNL-C NL-NC MNLSPTMNLJOINTPanel 1：预测精度联合RP+SP（测试）60.0%58.7%53.4%53.8%55.4%55.0%55.0%51.9%RP（测试）69.9%66.6%65.8%65.8%65.4%64.7%64.5%44.0%SP（测试）58.2%57.2%51.1%51.5%53.2%53.2%53.5%联合RP+SP（培训）60.7%62.2%52.5%52.9%54.0%54.5%54.4%50.3%RP（培训）69.1%71.9%59.8%59.8%58.9%62.2%62.1%37.0%SP（培训）59.1%60.3%51.1%51.5%53.0%53.0%53.0%52.8%Panel 2：模型的不同特征自动特征学习×××软约束××硬约束×数据扩充×××表1：八种模型的比较两种MTLDNN在联合和分离ERP和SP预测精度方面优于所有其他六种模型，如表1中的面板1所示。就联合预测精度而言，在联合RP和SP数据的测试集中，排名前1位的MTLDNN模型比有参数约束和无参数约束的NL模型分别高出4.5%和5.0%。与NL模型相比，MTLDNNs的预测增益约为5%，这与单独RP和SP数据集的样本外性能一致。前10个MTLDNN模型集合的预测精度也高于RP和SP联合测试集以及单独RP和SPDataSet测试集中的所有其他模型，尽管MTLDNN-E的性能比前1个MTLDNN模型差约1.3%。请注意，MTLDNN模型不仅优于传统的选择建模方法，如NL和MNL，还优于没有MTLDNN体系结构的DNN模型，如DNN SPT和DNN-JOINT，这表明了MTLDNN模型中软约束的重要性。

19楼

何人来此

发表于 2022-6-11 08:36:45

虽然MTLDNNs相对于NL模型的性能改进是显而易见的，但下一个问题是如何将这种改进归因于两个潜在因素：自动特征学习和软约束。5.2. MTLDNNsIt的性能改进来源很难通过直接比较MTLDNNs和两个NL模型来区分这两个因素，因为两者都不同，更困难的是，NL-C有硬约束，而TLDNS没有硬约束，如表1中的面板2所示。为了弄清这些因素的影响，我们以成对的方式对八个模型进行比较，使每对模型只受一个因素的影响。事实上，表1中的模型大致按照模型复杂性的降低进行了排序，从MTLDNNS到DNNs，再到NL，最后到MNL模型。模型结构相似的模型之间的比较使我们能够看到各个因素的影响。自动特征学习。比较MNL-SPT和DNN-SPT之间的模型，以及MNL-JOINT和DNN-JOINT之间的模型，有助于了解自动特征学习如何有助于提高性能。有趣的是，DNN-SPT和DNN-JOINT的性能并不优于MNL-SPT和MNL-JOINT，这表明直接应用前馈DNN体系结构并不能提高MTLDNN的性能。具体而言，DNN-SPT的预测精度比MNL-SPT差1.6%，DNN-JOINT的预测精度比MNL-JOINT高1.9%。通过应用统计学习理论的观点（第3.4节），该结果表明，至少在这一特定数据集中，在近似误差方面，较大的估计误差损失超过了预测精度的提高。当底层数据生成过程（DGP）与MNL相似时，就会出现这种结果，使用DNN代替MNL只会导致近似误差的微小或零减少。

20楼

可人4

发表于 2022-6-11 08:36:48

虽然这一结果不同于许多在旅行行为分析中发现DNN优于MNL的研究【50，71】，但这种类型的发现在之前的研究中并没有发现【48】。然而，从另一个角度来看，DNN的性能意味着，如果研究人员只是天真地应用默认的前馈DNN体系结构，并希望在不进行任何调整的情况下解决特定领域的问题，那么DNN的性能将无助于模型的性能。事实上，深度学习社区中最近的许多新模型都来自DNN架构的创新【40、60、31】，MTLDNN案例也不例外。软约束。通过比较MTLDNN和DNN，我们可以了解MTLDNN中软约束的重要性，尤其是MTLDNN特定的体系结构和正则化方法。事实上，DNN-SPT和DNN-JOINT可以看作是MTLDNNmodels的两个特例。图3a显示了一系列MTLDNN示例，按其共享层与任务特定层进行索引。在图3a的左侧，MTLDNN变为DNN-JOINT，它只有五个共享层，没有任何任务特定层。图3a右侧是MTLDNNsbecome DNN-SPT，它只有五个任务特定层，没有任何共享层。在NN JOINT和DNN-SPT之间，MTLDNN采用各种形式的体系结构，不同于共享层与任务特定层的比例。图3b显示了图3a中Sixmtldn架构的预测精度。在这组共有5层的MTLDNN模型中，具有非零共享或任务特定层的MTLDNN模型的性能明显优于DNN SPT和DNN-JOINT，尤其是具有3个共享层和2个任务特定层的MTLDNN体系结构的性能最好。该结果与表1相同，表1显示top1 MTLDNN在RP和SP的接头性能方面优于DNN-SPT和DNN-JOINT，分别为6.6%和6.2%（平均约6.4%）。

[量化金融] 多任务学习深度神经网络结合显示和陈述 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群