楼主: nandehutu2022
634 19

[量化金融] 利用社会信号改进加密货币价格预测 [推广有奖]

11
大多数88 在职认证  发表于 2022-6-25 06:30:14
2007):dCorr(x,y)=(dCov(x,y)√dV ar(x)dV ar(y),dV ar(x)dV ar(y)>00,dV ar(x)dV ar(y)=0),其中距离协方差(dCov)和距离方差(dV a r)定义为:dCov(x,y)=sPnk,l=1AklBkln,dV ar(x)=d Cov(x,x),Akl=Akl-nnXl=1akl-nnXk=1akl+nnXk,l=1akl。BKLI与aklwhere akland bklare Euch lidean distan ce m atrices of x和y的bklin place定义类似,分别定义为asakl=| xk- xl |,bkl=| yk- yl |。距离相关性从0到1不等,其中距离相关性为0表示变量的独立性。最后,我们还通过四分位范围(IQR)和每个感兴趣信号的标准偏差σ来检查每个信号(x)的变化,确定这些信号在感兴趣的时间段内保持一致(因此潜在信息较少)。预测模型具有长-短期记忆(LSTM)层的神经网络模型以前曾被用于有效预测诊所和社交媒体信号的组合对情绪的影响,优于未包含社交信号的模型(Volkova et al.2017)。LSTMsare是一种具有内置记忆细胞的递归神经网络,可以存储信息并利用远程上下文(Hochreiter和Schmidhuber 1997)。这些网络被允许或禁止重置、读取和写入此类信息的选通单元包围。

12
何人来此 在职认证  发表于 2022-6-25 06:30:17
受主流动态模型的启发,我们提出了一个新的网络模型,如图3所示,该模型还利用了LSTM层。该神经网络体系结构由一个400维LSTM层和一个800维LSTM层组成,然后是一个具有单个单元的致密层。价格预测密集层(1)LSTM层(800)LSTM层(400)输入图3:神经网络模型架构。我们没有在最终密集输出层中使用激活层或激活函数,因为我们将每个预测任务定义为回归任务,以预测数值高值,因此不需要激活转换。该模型使用的优化器是DAM优化器(一种参数特定的自适应学习率方法)(Kingma和Ba 2014),我们通过最小化用作验证集的20%训练数据子集的平均平方误差来优化性能。为了避免过度匹配,我们使用了最大限制为20个时代的早期停止回调。因此,虽然模型可以转换多达20个时代,但我们的模型通常只需要5到6个时代。所描述的拟议模式l的架构能够在相对较短的培训时间内实现一个方便且可扩展的框架。用作输入的信号,例如社会信号和历史价格数据,作为一个单一的c oncatenatedvector馈送到网络。在串联之前,使用整个数据集中给定特征的最小-最大规格化,将每个符号值规格化为0到1之间的范围。

13
何人来此 在职认证  发表于 2022-6-25 06:30:20
目标价格值(T)和输入向量中的信号(I)定义为:T(Y,j)={Y j,Yj+1,…Y | Y |}I(X,k)={<Xi-kxi-1,Xi>f或i∈ [k,| X |]}其中X是感兴趣的最小-最大归一化信号的2D数组,Y是历史价格高时间序列,j是预测风速的大小(即预测价格的提前天数),k是使用的信号历史天数。参数调整为了确定最终的c型配置,我们进行了一系列的参数调整。我们改变了几个模型参数:批量大小为16、32和64;学习率为0.1、0.01、0.001、0.0001和0.00001;LSTM层的组合范围从10维到400维层,然后是20维到800维层。对于倒立第二层LSTM,当批次大小为16,学习率为0.001,以及分别为400和800个单元时,我们发现性能最佳。基线自回归综合移动平均(ARIMA)模型是预测股票价格或回报的常用架构(Pai和Lin 2005;Zhang 2003)。基本上,ARIMA模型将变量(如价格)的未来值视为过去值和错误的线性组合。我们训练了各种ARIMA模型,并为我们感兴趣的每个预测窗口确定了性能最好的ARIMA模型,以用作基线。为了确定这些基线模型,我们将movingaverage窗口的大小固定为0,将差值顺序固定为1(使时间序列站为ary),并进行相关性分析以确定适当滞后参数的范围。我们发现,滞后阶为0的模型在整个货币市场上取得了最佳的整体性能。

14
何人来此 在职认证  发表于 2022-6-25 06:30:24
这些基线模型的R结果对于比特币至少为0.95(p<0.001),对于以太坊至少为0.92(p<0.001),对于forMonero至少为0.91(p<0.001)。评估为了确保在相同的列车和测试日期之间对所有列车和预测窗口大小的组合进行性能比较,使用最大可能的窗口大小确定列车和测试周期。我们首先将数据集限制为所有信号和所有硬币的数据。然后,为最大的培训(14)和预测(3)窗口大小确定输入向量和目标价格,并将其分为80%用于培训,20%用于测试。这导致从2015年11月11日到2018年4月27日的培训期(525天)和从2017年5月4日到2017年8月31日的测试期(120天)用于所有模型配置。使用以下误差测量来评估模型性能:均方根误差(RMSE)、均方百分比误差(MSPE)、平均绝对百分比误差(MAPE)、最大绝对百分比误差(MaxAPE)和均方根百分比误差(RMSPE)。对于一组N个预测值(^y)和真实p rice值(y),MAPE,也称为平均绝对百分比偏差,定义为:MAP E(^y,y)=NNXi=0 | yi- yi | yi最大绝对百分比误差定义为:MaxAP E(^y,y)=max| ^yi- 易|易均方百分比误差定义为:MSP E(^y,y)=NNXi=0(^yi- yi)yi货币之间的价格差异很大,对于一些货币来说,随着时间的推移,价格会随着时间的推移而变化。

15
kedemingshi 在职认证  发表于 2022-6-25 06:30:27
因此,我们首先报告了考虑百分比误差的性能指标,因为它们允许在三个感兴趣的硬币上进行相对比较。社会信号分析在这一节中,我们探讨了dailyprice与人气信号之间的关系,以及对IThub存储库的重大贡献,以及与加密货币相关的关于我们感兴趣的三种货币Reddit的讨论的数量、情绪和普及度。为了确定是否存在信息关系,我们检查了表1的人和距离相关性:每日价格和社会信号的Pearso n R相关和距离c相关(DC)。

16
能者818 在职认证  发表于 2022-6-25 06:30:30
皮尔逊结果显著(p<0.001),除非用短划线“-”(p≥ 0.05).比特币以太坊货币社会信号R DC R DC R DCWatch 0.87 0.86 0.68 0.73 0.72 0.68Fork0.75 0.72 0.40 0.38 0.41 0.48发行0.05 0.09 0.22 0.05 0.00 0.36发行建议0.13 0.14 0.36 0.29 0.25 0.54推送0.06 0.09 0.06 0.17 0.07 0.11承诺0.06 0.09 0.04 0.12 0.08 0.08推送请求(PR)0.18 0.20 0.14 0.22 0.15 0.21P评论评论0.39 0.37 0.29 0.36 0.22 0.44评论量0.58 0.62 0.48 0.51 0.670.78主观性-0.00-0.05 0.16 0.25极性-0.02 0.13 0.15 0.31 0.43分0.34 0.37 0.47 0.59 0.69 0.79表2:每日价格和社会信号的标准偏差(σ)和四分位间距(IQR)。比特币以太坊货币信号σIQRσIQRσIQRPrice High 868.00 626.85 99.44 34.67 19.71 11.96 Watch 10.34 7.00 2.09 2.00 1.60 1.00 Fork 4.55 4.00 0.66 0.00 0.94 1.00发行3.34 3.00 27.42 1.00 2.47 2.00发行建议24.98 34.00 7.93 7.00 9.51 10.00推送3.57 5.00 1.06 0.00 3.80 1.00承诺0.90 0.00.18 0.00 0.26 0.00 PullRequest(PR)5.92 8.00 1.14 0.00 5.15 4.00 PRReviewComment 13.2515.00 2.57 0.00 5.50 1.00评论卷1990.43 1981.00 695.86 369.00 376.34 466.00分数242.97 129.00 80.00 47.00 18.34 19.00主观性0.00 0.00 0.00 0.13 0.00极性0.01 0.00 0.06 0.00 0.23 0.25社会信号与硬币价格和所有特征的差异,以确定我们在实验中考虑的模型配置电池中包含哪些信号。在表1中,我们看到,价格与每种GitHub活动类型的日交易量相关(p<0.001),尽管在货币内和货币内的程度不同。我们还发现,比特币的Fork和Watch事件高度相关,而Watch事件高度相关,Fork事件与其他两种货币中度相关。

17
何人来此 在职认证  发表于 2022-6-25 06:30:33
对于Reddit平台,我们发现每日评论量和评论分数与每日价格高、acr高以及所有三种感兴趣的硬币都有关联。虽然每日一批评论的主观性和极性与比特币的价格高点之间没有显著的线性相关性,但这些特征在其余两种感兴趣的硬币中具有不同程度的相关性。我们在GitHub功能中看到,不同的社会信号和价格时间序列之间的关系在不同的感兴趣的货币之间存在一些差异。当我们在表2中考虑信号在自身内的变化时,我们发现在和wihtin coin s之间存在相似的模式。与其他信号相比,最高度相关的社会信号具有更大的变化,由标准偏差和信号向量的四分位距加总而成。我们发现,Reddit评论中与Bitco和以太坊相关的主观性和极性信号与公共关系不大,也没有显示出什么变化。然而,我们看到,第三种货币莫奈罗的货币与莫德拉泰利的货币略有不同。由于您的每一个社交信号都表明我们感兴趣的至少一种货币与价格f存在关系,因此我们将所有G itHub和Reddit so c ia l信号以及来自GitHub和Reddit平台的信号组合包括在我们的消融实验和Highlight结果中。预测结果在本节中,我们描述了依赖历史价格、历史a l价格和来自GitHub或Reddit的每个信号、历史a l价格和每个GitHub和Reddit信号的组合的模型的性能。

18
可人4 在职认证  发表于 2022-6-25 06:30:36
特别是,我们重点介绍了与仅依赖历史价格的基线ARIMAMODEL和LSTM相比,包含社会信号的模型,这些信号实现了高性能。首先,我们利用图4中过去一到十四天的信号对比模型性能,探索了信号历史增加的益处。对于依赖于预测信号组合的神经网络(LSTM)模型,我们在提前一到两天预测价格时,将MSPEA绘制为训练窗口大小的函数,即要依赖的信号历史天数。有趣的是,我们看到窗口大小最小(1)的模型实现了最好的性能。因此,我们使用1天的信号历史窗口大小进行后续模型评估。接下来,我们重点确定实现最佳性能的模型结构,以评估从各种平台整合社会符号的益处以及各种社会符号组合的益处。为此,我们进行了一项消融研究,将价格和社会信号的各个组合与仅基于历史价格的模型(LSTM和ARIMA基线)进行比较。为了确定最佳的总体模型,我们然后平均三个硬币的误差百分比,并用基线ARIMA和未包含社会信号的神经网络模型对社会信号注入模型进行排序。我们在表3中总结了表现最好的模型的平均误差,按ecasting任务三个模型的平均值排序。顶级绩效模型是拟议的LSTM,它依赖于价格历史和RLANG,这是官方副刊评论中使用的语言的表示。

19
mingdashike22 在职认证  发表于 2022-6-25 06:30:40
在这里,我们看到,当在货币和预测窗口中平均时,包含社会信号的LSTM模型的表现优于仅价格基线。如果我们只考虑提前一天的即时预测窗口,那么仅依赖价格历史的LSTM模型的表现优于其他模型。然后,我们在表4中单独考虑每个c oin的性能。在这里我们看到,在大多数情况下,纳入社会信号的神经网络模型略微超出了ARIMA基线和神经网络模型的性能15Bitcoin0 15Ethereum0 15Monero0 5 10 150 5 10 15 0 5 10 15训练窗口(天)LSTM(Price+GitHub)LSTM(Price+Reddit)LSTM(Price+Reddit)LSTM(Price+GitHub+Reddit)图4:通过不同训练窗口绘制的每个节点的神经网络模型的MSPE结果用于ecasting w indows的前两个尺寸,即提前一天或两天预测的尺寸。抖动已添加到x轴以增强可怕性。表3:ARIMA baselin e和top Performing n eural network(LSTM)模型提前3天预测价格时,三种感兴趣的货币(比特币、以太坊和Monero)的RMSPE平均值。最低值以粗体突出显示。预测窗口(天)模型信号1 2 3平均值TM$+RLang6.70 9.88 12.06 9.55LSTM$+GHP op+RLang6.64 9.99 12.40 9.68LSTM$+RV ol6.78 9.98 12.48 9.75LSTM$6.60 10.46 12.32 9.79ARIMA$7.30 10.56 13.10 10 10.32,这些结果在统计上并不显著。然而,我们看到,我们提出的LSTM神经网络架构,特别是包含社会符号的神经网络模式ls,使最大绝对百分比误差(MaxAPE)最小化。也就是说,在最坏情况下的预测性能中,我们发现我们提出的模型的错误率较低,该模型依赖于社会信号和价格历史。

20
可人4 在职认证  发表于 2022-6-25 06:30:43
当模型预测未来一天的价格(FW=1天)时,我们看到取得了最好的性能;不出所料,利用前一天的信号预测下一天的价格是最容易的。如果我们将预测窗口的范围扩展到近期和近期之外,我们会再次看到,结合了RLANG社会信号和历史价格的LSMModel在三种货币中的表现最好。表5显示了在提前两周预测价格时表现最好的车型的RMSPE。图5说明了在最坏情况预测误差(MaxAPE)方面,这一性能最好的模型与仅定价LSTM和ARIMA模型的性能相似,平均而言优于仅定价模式ls。我们将对照trueTable 4:基线ARIMA的MAPE、RMSPE和MaxAPE结果、仅依赖历史价格的神经网络模式ls以及烧蚀实验期间确定的性能最佳的社会信号增强神经网络模型的实际预测。结果对于报告的神经网络模型(LSTM),使用了1天的最佳执行训练窗口大小。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 16:54