楼主: nandehutu2022
1624 23

[量化金融] 复杂系统中的预测:以国际贸易为例 [推广有奖]

11
可人4 在职认证  发表于 2022-5-9 12:26:27
通过对countryi的所有正确预测链接进行平均,我们得到Ic,i(L),其在国家的平均值为新奇性Ic(L)。分数越高,我们预测的低程度项目越多。我们认为一个好的预测方法应该预测高复杂度的产品,因为它们需要比低复杂度产品更先进的技术。我们进一步将数量Cc,i(L)定义为针对国家i正确预测的产品的平均复杂度等级。其在每个国家的平均值给出了复杂度度量Cc(L)。最后,我们通过列表间的汉明距离[32](也称为个性化)hij(L)=1来衡量预测列表之间的差异-qij(L)/L,其中qijis是i国和j国预测列表中常见产品的数量。总体个性化h(L)通过对所有国家对进行平均得到;0和1的值分别对应于所有相同且相互排斥的列表。三、 结果首先,我们比较了国家产品网络与其他类型的真实二部网络的统计特性。代表在线系统的二部网络通常由用户和项目节点组成,当用户收集、购买、评级或以其他方式与项目交互时,它们之间会绘制连接。项目度分布通常很广,通常呈现幂律形状[30]。这是优先依恋过程[19]的直接结果,这在许多真实网络中都会发生,比如科学协作网络[33]、代谢网络[34]和社交网络[35]。优先连接假设是基于高阶节点比低阶节点以更高的速率吸引额外链路的观察。如图所示。

12
何人来此 在职认证  发表于 2022-5-9 12:26:31
1a国家产品网络产品端的学位分布与图1c所示的Netflix Prizenetwork[36]的幂律分布有很大不同(Netflix Prizenetwork是DVD租赁公司Netflix组织的推荐竞赛;数据由用户和他们评级的DVD组成)。如图1b和图d所示,两个网络的每时间步度增加也不同。国家产品网络中产品的增长程度与当前程度呈弱负相关(线性相关系数r=-0.28),而对于净弗莱克斯奖网络,学位增长与当前学位之间存在着很强的正相关关系(r=0.77)。我们很快就会看到,这种差异以及由此产生的在一个时间步长内接收新链接的产品的高度多样性降低了国家产品数据的预测准确性,而不是用户项目数据的准确性。虽然优先依恋模型很好地描述了净收入网络的增长,但它显然不适合国家产品网络。基于国家隐藏能力和生产各种产品所需能力的模型在这方面似乎更合适[20,22]。在0 100 200 300 400 500 0 10 20 30 a)N(kα)kα国家产品网络中,比较了四种基本预测方法在不同年份的表现-10 10 10 20 30b)kαkα110010001010000C)N(kα)kαNetflixPrize网络02004006000D)kαkα图1。面板a)和c)分别显示了国家产品网络和用户电影网络的项目度分布。N(kα)是kα阶的项数。面板b)和d)显示了项目程度增加之间的关系两个时间步之间的kα和项目度kα。

13
可人4 在职认证  发表于 2022-5-9 12:26:35
国家产品网络的时间步长为一年,Net flix Prize网络的时间步长为200天。随机位移的取值范围为-0.5比0。沿两个轴添加5个符号,以减少符号重叠的范围。00.10.20.30.4ra)质量热00.10.20.30.4rb)邻近因果关系00.050.119961997199819992000averageP(20)c)00.050.119961997199819992000averageP(20)d)图2。根据基于差异(左列)和产品之间的关系(右列)的预测算法的排名分数(a、b)和精度(c、d)进行准确度评估。x轴上的年份是根据前一年网络状态进行预测的年份。图2。在用户项数据中,质量扩散显著优于热扩散对应物[18,30]。然而,如图2a和c所示,该国的情况非常不同。数据显示:热扩散优于质量扩散00。10.20.30.40.5ra)质量-热量混合接近度00.050.10.15P(20)b)因果关系复杂度+混合接近度+混合因果关系+混合因果关系00.050.10.150.2R(20)c)00.20.40.60.8 1Cc(20)d)00.20.40.60.8 1h(20)e)00.5 11.5 2Ic(20)f)图3。预测精度(顶行)和多样性(底行)的比较。图中显示的绩效结果代表了1996-2000年的平均超额结果。对带有参数的方法进行了优化,并给出了它们的排名分数。0.0 0.2 0.4 0.6 1995 1996 1997 1998 2000 a)λ,θ年0.28 0.30 0.32 0.34 0 0.2 0.4 0.6 0.8 1b)rλ,θ混合复杂度+混合因果关系+混合0.20 0.25 0.30 0.3519961997199819992000平均c)Ryearcausality混合0.00 0.05 0.10 0.1519961997199819992000平均)P(20)年复杂度+混合因果关系+热图4。面板a)显示了不同年份方法的最佳参数(优化再次与排名分数有关)。

14
kedemingshi 在职认证  发表于 2022-5-9 12:26:38
图b)显示了1998年排名分数对参数的依赖性。优化杂交方法的结果用于比较。结果显示(inc)和d)使用1995年和之前的数据预测1996年的新产品。方法的参数是根据前一年预测的最佳参数确定的。显示了基于因果关系的预测性能,以供比较。无论是排名分数还是精确度。原因在于该国产品数据中没有优惠附件,如图所示。1b和d.附录d提供了一个使用简单模型的例子,该模型有优先连接和没有优先连接。与质量扩散不同,热扩散不利于流行物品[37],因此更适合此处的预测任务。因果关系和接近度可以用来预测各国未来的出口(见图2b,d)。因果关系在等级评分中优于邻近关系,这表明ψiα的时间谱捕捉到了不同于φiα的产品之间的不同关系。同时,ProximitYouTube在精度指标中执行因果关系,这表明得分最高的产品与邻近性的相关性大于因果关系。在优化预测性能时,我们发现1992年的平均接近度提供了最佳结果,而较长时间段的因果关系收益和1984年早期的数据用于建立因果关系(见附录B)。我们比较了图3中所有方法的性能。与[18]一致,质量和热扩散之间的混合提高了每个精度指标,以及预测多样性。与混合方法相比,复杂度+混合(等式(9))略微改善了每个度量,尽管是以在预测过程中添加额外的自由参数为代价的。

15
大多数88 在职认证  发表于 2022-5-9 12:26:41
邻近性和因果关系的表现与混合差分法类似,没有任何参数,并且都有各自的优点:因果关系产生更好的排名分数和更低程度的预测结果,而邻近性产生更好的精度,并预测更高复杂度的产品(图3d)。通过将邻近性或因果性与扩散相结合,我们进一步改进了结果。通过因果关系+混合,可获得最佳的整体性能。与随机预测相比,与净流量奖励网络[18]中的80倍相比,精度指标提高了4倍,这表明国家产品网络中未来链接预测的可预测性相对较低。注意,我们可以通过将因果分数(ψiα)乘以指数,在因果+混合方法中添加一个额外的参数→ ψθiα,其中θ是一个自由参数),导致排名分数提高了大约3%,但个性化指标有了实质性的提高(约20%)。参数的选择是非参数化方法的一个重要组成部分。我们通常使用整个数据集来优化预测方法的参数。为了控制可能的过度匹配,我们使用了一种类似于三重验证的方法,这在信息过滤中很常见[38,39]。我们首先找到使排名得分最小化的t年参数,然后使用优化的参数对t+1年进行预测。图4a显示了混合方法和因果+混合方法的最佳参数随时间变化为常数。图4b进一步显示,复杂度和因果关系与扩散方法相结合的参数范围比混合扩散方法的参数范围更广。因果关系+混合方法的理想参数非常接近于0,这使得因果关系+混合方法实际上是一种无参数方法。无花果。

16
kedemingshi 在职认证  发表于 2022-5-9 12:26:44
4d,我们在预测之前将参数设置为固定值。我们看到,每种方法的准确性和多样性仍在提高,复杂性和因果关系加上差异进一步改善了这些结果。四、 讨论我们使用混合扩散算法[18]来预测国家产品出口网络中的新链接,该算法是未加权二部网络中的标准推荐方法之一。与通常的用户项目数据不同,热扩散算法产生了令人满意的结果,我们将其归因于国家产品数据的增长机制,其中缺少优先依恋——用户项目数据中的一个关键驱动力。最近开发的国家适应性和产品复杂度指标被用来提高预测性能。虽然它们提供了有关单个国家和产品的信息,并通常提高了预测性能,但我们发现产品接近度和因果关系之间的关系甚至更有利。最好的整体预测方法是将热扩散建议与因果关系得分相结合。在这项工作中,我们将输入信息限制为通过应用RCA阈值获得的国家产品网络状态;有关出口量的详细信息已被忽略。如果我们取消这一限制,例如使用RCA值进行预测,我们只需按照预测列表中的RRCA值对产品进行排序,就可以实现较高的预测精度(SERCA超过1的产品自然被排除,因为相应的链接已经存在)。这将导致排名得分r~=0.15,精度P~=0.3,这是对最佳因果关系+杂交方法的显著改进,该方法产生r~=0.3,P~=0.11.

17
nandehutu2022 在职认证  发表于 2022-5-9 12:26:47
这一改进是使用额外信息(RCA度量量化的相对链接重要性)的直接结果,该信息对国家产品网络非常具体,因此在我们的预测方法可能相关的其他系统中不可用(例如,链接将项目与购买或以其他方式与之连接的用户连接起来的二分用户项目网络)。因果关系评分的引入证明了在预测过程中使用时间信息的可能性和益处。该分数还可以用于其他类型的数据,例如用户电影数据,其中欣赏一系列电影的第一集的用户可能也会观看第二集。除了预测之外,因果关系还需要进一步研究,以了解它告诉我们产品之间的关系;例如,在新产品开始出口之前检查出口的产品。国家产品网络中的预测可以进一步改善地理(邻国可能有类似的能力)以及价格和出口量的时间演变(它们的增长可能吸引新的生产商)方面的外部信息。基于机器学习[40–42]驱动的多模型和组件的预测方法最终可能有助于理解国内产品数据有限的预测精度。0.320.340.36 1 2 3 4 5a)rt19930。320.340.36 1234 5b)rt19950。050.10.150.2 1 2 3 4 5c)Pt0。050.10.150.2 1 2 3 4 5d)Pt实用性接近杂交图A.1。我们在这里计算当前的t年,并对t年进行预测+t、 a)和b)显示因果关系和邻近关系的排名分数,以及混合方法作为t、 面板c)和d)显示了精度随时间的变化t、 对于a)和c)本年度为t=1993,而对于b)和d)本年度为t=1995。五、

18
可人4 在职认证  发表于 2022-5-9 12:26:51
致谢这项工作得到了瑞士国家科学基金会第200020143272号拨款和欧盟FET开放基金第611272号(Growthcom项目)的支持。A.时间步长对精密度测量的影响在正文中,我们预测了各国明年将出口的新产品。在图A.1中,我们确定了t年,并预测了各国将在t年出口的新产品+t、 但它不是在t年输出的(根据集合,我们试图预测Ct)+t\\Ct)。关于排名分数r,因果关系在预测不久的未来时是最佳的,但在预测更高的未来时则不太准确t、 接近型和混合型对噪音不太敏感t、 精度随着时间的推移而提高因为每个国家出口的新产品数量随着时间的推移而增加t、 0.320.340.360.380.40.420.441962 1996 1970 1980 1990 a)开始年份19970。320.340.360.380.40.420.441962 1998 1970 1980 1990 b)开始年份19990。320.340.360.380.4 50 100 150 250 300摄氏度)rn0。320.340.360.38 50 100 150 200 250 300d)RN因果关系近似图B.1。a) b)显示因果关系和邻近关系的排名分数,作为建立关系的第一年的函数。c) 和d)显示排名分数,作为计算封闭度时使用的最近乘积n的函数。因果关系和邻近关系的参数因果关系和邻近关系有两个参数。第一个是用于计算结果值的年数。结果如图B.1a和图B所示。对于邻近性,使用1991年的数据几乎是最佳的,这与数据集中的统一德国的到来相对应。对于因果关系,虽然增加历史长度通常是很自然的,但由于产品的分类原始数据集(见参考文献[23])发生变化,1984年之前的数据会导致排名分数恶化。

19
kedemingshi 在职认证  发表于 2022-5-9 12:26:54
因果关系是按国家计算的:对于每个国家,我们认为α和β之间存在因果关系∈ nTi和β∈ 在考虑的时间段内至少进行一次CTI。因果关系ψαβ是指因果关系数量与至少出口一次产品的国家数量之间的比率。在计算一个国家和一个产品之间的接近度时,我们可以将计算限制在n个最接近的产品上。通过这样做,我们的目标是只考虑最重要的产品,这与推荐算法中通常使用的最近邻相似[43]。结果如图B.1c和d所示。我们最终使用0。050.10.150.21 20 40 60 80 100a)P(L)L19970。050.10.150.21 20 40 60 80 100b)P(L)L1999 00.10.20.30.41 20 40 80 100c)R(L)混合复杂度+混合因果关系+混合00.10.20.30.41 20 40 80 100d)R(L)L图C.1。对于三种不同的预测方法,精度P(L)和召回率R(L)是预测列表长度L的函数。在图a)和图c)中,预测是针对1997年进行的,而在图b)和图D)中,预测是针对1999年进行的。所有产品都被考虑在内,以计算近似性和因果关系。虽然图B.1d显示,它不是因果关系的最佳选择,但差异相当小(约0.2%)。C.预测列表的长度预测方法为每个国家/地区的产品对分配一个分数,并通过选择L个最佳评分产品为每个国家/地区生成长度L的预测列表。预测列表的长度是一个自由参数,可以任意设置。

20
可人4 在职认证  发表于 2022-5-9 12:26:58
我们在主测试中使用L=20,这反映了实际预测列表的长度[18],并且它也接近每个国家连续两年出口的新产品平均数量(1994年至2000年平均约17.2)。为了完整性,我们在图C.1中展示了精度和召回率对预测列表长度的依赖性。准确度随着预测列表长度L而降低,这表明排名靠前的产品在明年被某个国家出口的概率确实最高。00.10.20.30.40.50 0.25 0.5 0.75 1a)rθ回收热质量0 5 10 15 20 0 0.25 0.5 0.75 1b)eP(20)θ精度增强图D.1。图a)显示了回收率,图b)与随机预测eP(20)相比,质量和热扩散推荐方法的精度都有所提高,这是模型参数θ的函数。用户数量设置为吨=10000,项目数量设置为M=2000,链接数量设置为M=100000。1100 1 100N(KI199619971998图D.2。三年来国家产品网络中国家的累积学位分布。D.参考附着和热扩散之间的相互作用我们在这里研究一个简单的模型,以验证在没有优先附着的网络中,热扩散算法的精度可能与质量扩散算法的精度相当。我们的网络由NUSER和M项组成。每个用户i都有一个偏好向量tian,每个项目α都有一个类别向量cα,对应于用户的口味。一个项目可以属于某个类别,也可以不属于某个类别,该类别对应于CategoryVector的元素为1或0。另一方面,用户可以喜欢类别,忽略类别,甚至不喜欢类别,这对应于用户偏好向量的元素为1、0或1-分别为1。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-31 20:44