楼主: 能者818
1123 21

[量化金融] 利用遗传算法从异构数据流中提取预测信息 [推广有奖]

11
何人来此 在职认证  发表于 2022-5-11 02:01:10
Roberts/利用高斯过程从异构数据流中提取预测信息,激励使用输入特定的特征长度尺度。在ARD内核中,等式(14)的标量输入长度标度l被替换为向量输入长度标度,每个输入维度I具有不同的LIF,允许不同的距离度量。这些超参数将适用于任何给定的数据集:大尺度的输入只会导致协方差函数的微小变化,而小尺度的输入会有效地放大这些变化。因此,我们可以将每个特征的相关性核心定义为其输入长度标度的倒数,并通过降低相关性对输入的显著性进行排序。相关性得分i=l-1i(15)ARD算法已成功应用于从生物信息学(Campbell and Tipping,2002)到地震学(Oh et al.,2008)的研究中,为修剪大量相关特征提供了有效工具。提出的方法学的一个局限性是,相关性得分仅提供模型特征之间的相对排名。两个同样无意义的输入将具有相似大小的相关性分数,两个同样有意义的特征也是如此。就其本身而言,这些分数为执行维度缩减提供了很小的基础。为了克服这一点,我们在每次回归中都包含一个由标准高斯噪声组成的基线特征。我们认为一个有意义的输入应该有一个比噪声大至少两个数量级的相关性核心,因此通过计算相关性比率,我们可以确定哪些特征是客观信息。相关性比率=相关性得分相关性得分噪音(16)5。结果在本节中,我们概述了我们的分析结果。

12
nandehutu2022 在职认证  发表于 2022-5-11 02:01:14
在进行模型测试和基准测试之前,我们首先使用ARD发现数据中的相关性层次结构。模型性能指标是使用2013年1月至2014年12月的培训市场数据和2015年1月至2015年4月的测试市场数据得出的。图1显示了这一时期标普500指数的价格历史。图1。2013年1月至2015年5月1日期间标准普尔500指数的历史价格。相关性分析我们首先对训练集的每个特征进行相关性分析,按领域分组,并收集表1中的结果。在大多数情况下,等级相关性比线性相关性强,尽管变化太小,无法改变分析。为简洁起见,在接下来的所有章节中,我们采用了相关性的线性定义。接下来,我们将概述一种确定观察到的样本相关性是否显著的方法。给定两个长度为N且样本相关系数为r的独立随机变量xAND y,统计量t=r×√N- 2.√1.- r(17)是t分布的,有N-2个自由度。位于t分布95%置信区间之外的(r,N)对的值违反了独立性的零假设,通过学生的t检验提供了一种方法,用于识别数据集中的显著相关性。P值由t分布表导出,并测量不相关样本数据产生t统计量的概率,该概率等于或大于从等式(17)获得的t值的极值。常见的显著阈值为0.05或0的p值。1

13
大多数88 在职认证  发表于 2022-5-11 02:01:17
对我们的数据集进行t检验,除了经纪人推荐之外,每个领域都至少有一个特征与次日收益显著相关,由表1中0.05以下的p值表示。使用4个不同的域源于这样一种信念:通过跟踪不同的市场代理,这些数据集将表现出彼此之间的低相关性,从而增强组合模型的预测能力。在表2中,我们测量了训练集中输入对之间的相关性,发现域内相关性通常比域间相关性强26 S.Ghoshal和S。

14
能者818 在职认证  发表于 2022-5-11 02:01:20
Roberts/使用高斯过程从异构数据流中提取预测信息1在训练集上测量的输入输出相关分析,N=503(2013年1月至2014年12月)相关p值特征Pearson-Spearman Pearson-Spearman回归(t)-0.0336-0.0862 0.4524 0.053450dSMA-0.0451-0.1123 0.3130 0.0117MACD-0.1403-0.1576 0.0016 0.0004信号线-0.0170-0.0365 0.7034 0.4138Stocktwits-0.1103-0.1247 0.0133 0.0051推特-0.0287-0.0539 0.5201 0.2275 StockTwits变化-0.0581-0.0658 0.1933 0.1406维特变化+0.0269+0.0215 0.5474 0.6305方向性+0.1011+0.1135 0.0234 0.0108粘度*-0.2262-0.1831 0.0001 0.0001经纪人状态+0.0348+0.0159 0.4361 0.7220经纪人变更+0.0024+0.0263 0.9564 0.5562*根据绝对收益计算粘度相关性。表2在训练集上测量的输入-输入相关性分析,4)N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N–0.14 0.21 0.15–0.01 ST 0.29 0.12 0.24 0.27 0.44 1.00–0.18 0.11 0.05 0.02 DIR 0.02–0.11–0.49–0.18–0.14–0.18 1.00–0.35–0.07 0.03Visc 0.01 0.02 0.37 0.18 0.21 0.11–0.35 1.00 0.00–0.02–0.10状态0.05 0.05–0.05–0.01 0.01 0.10–0.15 0.05–0.01 0.01 0.01–0.01 0.01 0.01 0.01,激发人们对信息的追求,跨越多样、异构的数据集。5.2. 特征相关性使用2013年1月至2014年12月的训练数据,使用Mat’ern 3/2 ARD核对每个数据域执行单独的高斯过程回归。

15
何人来此 在职认证  发表于 2022-5-11 02:01:24
这既可以对每个领域内的特征相关性进行排序,也可以对从每个模型中两个排名靠前的特征中学习到的平均曲面进行双变量可视化。相关性分别基于等式(15)和(16)中定义的相关性得分和相关性比率进行排名,市场技术的结果见表3。虽然MACD衍生的信号线和前一天的收益率几乎不能解释产出的变化,但50天的简单移动平均线和MACD也是显著的。图2提供了基于technicaldomain的两个顶级特征MACD和50dMA(t)的回归变量热图,通过百分位数表3市场技术相关性特征得分率的相关性(t)0.0637 4.3×1050dSMA 0.5620 3.8×10MACD 0.1783 1.2×10信号线0.0883 6.0×10噪声0.0002 1核心进行索引。作为第一个近似值,MACD和nextday回报率的变化是相反的:相对于近期历史而言,便宜与次日收益相关。表4提供了情绪特征相关性的分析。Stocktwits情绪数据比Twitter数据信息量大得多,以至于Twitter功能无关紧要,可以丢弃。作为一个专注于金融的社交媒体网站,Stocktwits的极性很可能只反映了市场情绪,而Twitter则捕捉了一系列与市场无关的问题的公众意见(名人戈斯·戈沙尔和s·罗伯茨/使用高斯过程从异构数据流中提取预测信息27图2.s&P500日收益率变化作为50天移动平均数(x轴)和MACD(y轴)的函数)。表4情绪分析相关性特征得分比率TockTwits指数0.2087 2,8×10 StockTwits变化0.0001 0.9 Twitter指数0.0001 0.9 Twitter变化<0.0001 0.3噪音0.0001 1图。3.

16
能者818 在职认证  发表于 2022-5-11 02:01:28
标准普尔500指数日收益率变化是股票推特情绪(x轴)和推特情绪(y轴)的函数。sip,当地政治)。1天的变化变量毫无意义,可以从后续分析中丢弃。值得注意的是,通过GP回归学习到的均值函数质疑了群体的智慧:如图3所示,对股市的乐观预示着广泛的市场下跌,反之亦然。情绪分析证实了表5价格相关性特征得分比率方向性0.5656 4.7×10粘性0.3844 3.2×10噪音0.0001沃伦·巴菲特的格言:“别人害怕时贪婪,别人贪婪时恐惧。”表5提供了期权衍生指标的相关性。方向性和粘性在表面上几乎是同等相关的,具有正向方向性——也就是说,专家通过看涨期权为反弹预先定位,预期第二天的正回报。粘滞代替追踪返回压缩的区域,并作为摩擦的一种形式。这在图4中表现为峰值回波区域,与高方向性和低粘度一致。经纪人行为的相关性在表6中评估。代理升级和降级很少发生,导致代理更改输入很少。Mat’ern 3/2内核能够学习inFig中显示的非光滑行为。5,但由于相关性度量无法与高斯噪声区分开来,该领域不太可能对组合图提供有意义的改进。4.标准普尔500指数日收益率变化作为方向性(x轴)和粘度(y轴)的函数。表6经纪人推荐相关性特征得分率经纪人状态0.0157 2.0×10-2冲程变化0.2649 0.3×10-1噪声0.4523 128 S.Ghoshal和S.Roberts/使用高斯过程从异构数据流中提取预测信息图。5.

17
nandehutu2022 在职认证  发表于 2022-5-11 02:01:31
标准普尔500指数日收益率变化是经纪人状态(x轴)和经纪人变动(y轴)的函数。模型这表明分析师的观点几乎没有预测力,只是反映了市场发生变化后的情况。仅保留显著特征,我们对所有域的相关输入同时进行高维高斯过程回归。表7中汇总的结果大致反映了我们对相关分析的预期,突出了ARD框架发现数据结构的能力。5.3. 模型性能在建立了识别显著特征的方法之后,我们现在将注意力转向使用每个数据域的ARD高斯过程的预测性能。在融合到一个组合模型之前,我们分别测试每个域的预测值,并根据预测和观测值之间的皮尔逊相关性、中值绝对偏差和正态均方差来衡量性能,其中正态均方差常数是观测值的标准差。结果见表8。该模型在包含其他功能时,表现出单调的改善,期权市场数据提供了最大的收益。此外,它严格优于传统的财务模型,例如在测量地面真相相关性和NRMSE时的前瞻AR过程。基准绩效水平包含在表9中。在比我们研究的28个月窗口大得多的时间范围内,金融领域的监督批量算法可能无法足够快地识别出环境中的重大变化。

18
kedemingshi 在职认证  发表于 2022-5-11 02:01:35
例如,Stocktwits情绪的相关性在训练集中测量的所有领域都是可接受的7相关性,N=503个条目(2013年1月至2014年12月)相关性Pearson特征分数比相关性p值方向性0.3698 7.5×10+0.1011 0.0234粘度*0.3332 6.7×10-0.2262 0.0001Stocktwits 0.0738 1.5×10-0.1103 0.013350dMA 0.6660 1.3×10-0.0451 0.3130MACD 0.3159 6.4×10-0.1403 0.0016冲程变化<0.0001 1.58+0.0024 0.9564噪音<0.0001 1-0.0238 0.5948*根据绝对收益计算粘度相关性。表8ARD GP性能在测试集上测量,N=75(2015年1月至2015年4月)皮尔逊性能特征相关p值MAD(bp)NRMSEMACD+0.2387 0.0392 58.22 0.9834 StockTwits+0.1779 0.1268 52.51 0.9888方向性+0.2412 0.0371 54.07 0.9769粘度*-0.1635 0.161151.59 0.9880经纪人变更-0.1206 0.3026 51.73 0.9941技术(全部)+0.3079 0.0072 56.99 0.9796情绪(全部)+0.1779 0.1268 52.51 0.9888价格空间(全部)+0.3315 0.0037 60.76 0.9477经纪人数据(全部)-0.1343 0.2505 51.73 0.9941合并+0.3803 0.0008 51.53 0.9298*根据绝对收益计算粘度相关性。S.Ghoshal和S.Roberts/使用高斯过程从异构数据流中提取预测信息29表9前瞻性基准性能模型相关性MAD(bp)NRMSEAR(1)+0.0050 53.10 0.9950AR(3)+0.2025 53.11 0.9932AR(10)+0.1950 52.61 0.9885该网站在2009年推出时非常低,并且随着用户群的规模而增长。解决这个问题的一个方法是只从最近的历史中自适应地学习内核超参数,消除旧的、可能不相关的数据的影响。从在线到在线,自适应学习的演变过程一目了然:我们定义了一个窗口,在该窗口上训练自适应ARD高斯过程,以便进行次日预测。

19
kedemingshi 在职认证  发表于 2022-5-11 02:01:38
向前滚动窗口,我们使用最佳组合的特征集为测试集中的每一天生成预测,并像以前一样测量模型性能。自适应ARD高斯过程模型的性能指标见表10。预测性能下降到不切实际的水平,低于一整年数据对应的w=250阈值,突出了高斯过程回归的关键数据量的需要,并暗示了股市回报的季节性差异,这与长期以来对年度周期性主题的实证研究相一致(Lakonishok和Smidt,1989;Agrawal和Tandon,1994)。考虑到相关性和平均绝对偏差度量,使用最新数据的精确整年获得最佳自适应性能。在表11中,我们提供了基准自适应模型的性能指标,如一步aheadTable 11自适应基准性能模型相关MAD(bp)NRMSEAR(1)+0.1163 48.01 0.9891AR(3)+0.1095 49.27 0.9887AR(10)+0.3191 51.70 0.9561KF(1)+0.0973 51.33 0.99099KF(3)+0.0219 49.03 0.9940KF(10)+0.1952 52.74 0.9763AR和带可变滞后的自回归卡尔曼滤波器,发现自适应ARD GP既能获得更好的结果,又能带来自动、可解释的特征选择的好处。6.结论从多个域中提取信息面临着识别主题和如何混合的双重挑战。我们的结果为通过ARD GP回归减少输入维度提供了一个原则框架。我们展示了在线环境下融合多个数据流在预测性能方面的可测量收益,并特别关注期权市场数据的相关性和价格空间的隐含不均匀表示。

20
何人来此 在职认证  发表于 2022-5-11 02:01:42
期权市场显著性是一个未开发的、功能丰富的、由信息参与者相互作用形成的、依赖于罢工的数据集,为进一步研究价格空间的数据驱动建模及其对金融预测的影响提供了强有力的支持。表10在测试装置上测量的自适应ARD GP性能,N vvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvv3110.006661.62 0.9620w=375+0.3236 0.0046 57.80 0.9438w=400+0.3526 0.0019 54.84 0.9313w=425+0.3359 0.0032 63.02 0.9369w=450+0.3584 0.0016 58.86 0.9286w=475+0.3508 0.0020 57.77 0.9313w=500+0.3636 0.0013 57.930.927530 S.戈沙尔和S.罗伯茨/利用高斯过程从异构数据流中提取预测信息,ESREFEREFERENTA,1994,K.塞萨雷纳,塞萨雷纳。异常还是幻觉?来自18个国家股票市场的证据,《国际货币与金融杂志》13(1)。安东尼,J.H.,1998年。股票和期权市场交易量数据的相互关系,金融杂志43(4)。Biller,B.,科尔鲁,C.G.,2012年。基于Copula的多元输入建模,运筹学和管理科学调查17(2)。坎贝尔,C.,李,Y.,蒂普,M.,2002年。用于基因表达数据分类的贝叶斯自动相关性确定算法。牛津大学出版社。纽约州班吉奥市查帕多斯,2007年。商品合约的预测和交易采用高斯过程。第13届经济和金融计算国际会议。爱德华兹,R.D.,新泽西州马吉市,1948年。股票趋势技术分析,愿景书,pp。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-27 22:35