楼主: nandehutu2022
1402 35

[量化金融] 金融时间序列的时间注意增强双线性网络 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-2 17:06:03
对于给定多个股票指数当前和过去价格的未来股票价格预测任务,作者在[40]中开发了一个具有两阶段注意机制的循环网络,该网络首先关注不同的输入序列,然后关注不同的时间实例。我们应该注意到,上述注意机制的公式是针对重复结构提出的。我们的工作可以看作是[46]的直接延伸,作者提出了一个基于双线性映射的回归模型,用于中等价格运动分类问题:f(X)=WXw(3),其中X∈RD×t是一个包含时间步长的多元时间序列。W∈R3×Dand w∈RT×1是要估计的参数。通过学习将输入LOB状态转换为大小为3×1的类隶属度向量的两个独立映射,对应于中间价格中的3种类型的移动,证明了[46]中的回归模型优于其他浅层分类模型。利用abilinear mappin g函数构造神经网络层的其他相关工作包括[45]和[44]。虽然[45]试图通过在每个重复步骤中处理一组临时口语实例,将双线性映射纳入重复结构,但[45]和[44]都专注于中等规模的视觉相关任务,如手写数字识别、图像插值和重建。三、 拟定方法a。双线性层我们从介绍一些符号和dde定义开始本节。在本文中,我们用小写或大写字符(a、b、a、b,…)表示标量值,以小写粗体字符(x、y、…)表示的向量,用大写粗体字(X,Y,…)表示。材料ixX∈RD×是一个二阶d阶张量,它有两个模式,其中d和T分别是第一和第二个模式的维数。我们表示Xi∈RD×T,i=1。

12
能者818 在职认证  发表于 2022-6-2 17:06:06
,N—N个样本的集合,其中每个样本包含一系列与其T列相对应的T pastobservations。过去值(T)的时间跨度称为历史,而我们想要预测的未来值(H)的时间跨度称为预测范围。例如,假设股票价格每秒钟采样一次,Xi∈R10×100包含过去T=10 0秒的不同LOB水平的股票价格,H=10的预测水平对应于n后10秒的预测未来值,例如中间价格。让我们用X=[X,…,xTl]∈RD×t输入到双线性层(BL)。该层通过应用以下映射将大小为×T的输入转换为大小为D′×T′的矩阵:Y=φWXW+B(4) 图1:。拟议的时间注意力增强双线性层(TABL)的图示,其中W∈RD′×D,W∈RT×T′,B∈RD′×T′是要估计的参数。φ(·)是元素级非线性转换函数,如ReLU【57】或sigmoid。公式(4)中映射的一个明显优点是,估计参数的数量与输入的每个模式的维数成线性比例,而不是与输入神经元的数量成线性比例。对于MLP层,将大小为DT的输入转换为D′T′需要估计(DT+1)D′T′参数(包括偏差项),这比双线性层估计的参数数量(DD′+T′+D′T′)高得多。当将公式(4)中的映射应用于时间序列数据时,更重要的特征是,BL模型有两个依赖项(输入表示的每个模式一个),每个依赖项都有不同的语义含义。为了更好地理解这一点,请表示Xas xct的每一列和每一行∈RD,t=1,T和xrd∈RT,d=1,D、 分别为。

13
何人来此 在职认证  发表于 2022-6-2 17:06:10
给定输入的时间序列X,第t列表示在时间实例t观察到的底层过程的D个不同特征或部分,其中第D行包含在最后t个步骤中D个特征的节奏变化。自WX起=Wxc,WxcT(5) XW公司=(xr)TW。。。(xrD)TW,(6) 式(5)表示不同特征/方面在一个时间点t=1,式(6)中的W捕捉到T,W建模第D个特征/方面的时间进度。例如,假设X包含历史T期间D个不同LOB水平的股票价格,BL通过Wand确定不同股票价格在特定时间如何相互作用,并通过W确定特定指数的价格如何随时间推移。如【53】所示,利用LobGends中存在的空间结构可以更好地联合分布未来的最佳出价和ASK价格。B、 时间注意增强双线性层虽然BL沿每个模式学习单独的依赖关系,但不清楚一个时间实例的代表如何与其他时间实例相互作用,或者哪些时间实例对ho rizon T′的预测很重要。

14
nandehutu2022 在职认证  发表于 2022-6-2 17:06:13
通过将位置信息纳入注意力计算方案,文献[56]中的作者表明,学习模式l仅使用过去序列中的特定时间实例来预测序列间学习在给定视界下的未来重估值。为了了解所提议的BL中每个时间实例的重要性,我们提出了临时注意增强双线性层(TABL),它将输入输出X∈RD×Tto输出Y∈RD′×T′如下:’X=WX(7)E=’XW(8)αij=exp(eij)PTk=1exp(eik)(9)~X=λ(’X⊙ A) +(1- λ) (R)X(10)Y=φXW+B(11) 式中,αij和eijdenote分别为a和E位置(i,j)处的元素,⊙ 表示元素乘法运算符,φ(·)是一个预定义的非线性a r映射,如式(4)所示。W∈RD′×D,W∈RT×T,W∈RT×T′,B∈RD′×T′和λ是建议表格的p参数。与前面提到的BL类似,TABL通过W和W建模了两个独立的依赖项,包括通过W和λ学习的中间张力步骤。前向传递表由5个步骤组成,其中ic h如图1所示:o在等式(7)中,Wis用于转换每个时间实例xct的重新表示,t=1,X的T(每列)到新的特征空间RD′。这在保持时间顺序不变的情况下,对X的第一个模式的依赖性进行建模第二步的目的是了解临时实例对彼此的重要性。这是通过学习对角线元素固定为1/T的结构化矩阵W来实现的。让我们在“xt”之前删除∈RD′和et∈RD′X和E的第t列。从等式(8)中,我们可以看到etis是特征空间RD′中T个临时实例的加权组合,即T个列的\'X,第T个时间实例的权重始终等于1/T,因为它们的对角线元素固定为1/T。

15
kedemingshi 在职认证  发表于 2022-6-2 17:06:16
因此,元素eijin E对元素“xijj”相对于其他元素“xik”的相对重要性进行编码,k 6=j。o通过使用等式(9)中的esoftmax函数对E中的重要性值进行归一化,拟定的层将许多元素推近零,同时将其中少数元素的值保持为正值。这个过程产生了注意力面具A。o从第三步获得的注意力m ask A用于消除d′中不重要元素的影响。公式(10)中的可学习标量λ允许模型学习软注意机制,而不是应用硬注意机制。在学习过程的早期阶段,从前一层提取的学习特征可能会有噪音,并且可能没有辨别力,因此硬注意可能会将模型误导到不重要的信息,而软注意可能会使模型在早期阶段,即在选择最重要的音调之前,学习辨别性特征。这里我们应该注意到λ被限制在范围[0,1]内,即0≤ λ ≤ 1o与BL类似,拟议层的最后一步将重新生成时间映射W,在偏移和非线性转换后提取高层代表。一般来说,在拟议层的第二、第三和第四步中引入注意机制,鼓励代表同一特征的不同时间步的神经元之间的竞争,即“X”的同一行上的元素之间的竞争。然而,这些竞争对于RD′中的每个特征都是独立的,也就是说,“X”的同一列中的元素不会竞争被代表。使用反向传播(BP)算法与网络中的其他层联合训练所提出的层结构。

16
nandehutu2022 在职认证  发表于 2022-6-2 17:06:20
在反向传递BP期间,为了更新TABL的参数,必须计算以下数量:L/WL/WL/λ, L/魔杖L/B其中L是损失函数。这些衍生物的推导见附录A.C.复杂性分析。如前一节所述,BL的最大复杂性为O(DD′+T T′+D′T′)。建议的TABL需要在内存中额外装载O(T)。BL的计算需要以下步骤:以O(D′DT+D′T T′)为代价的矩阵乘法wxww,以O(2d′T′)为代价的偏置移位和非线性激活。总的来说,BL的计算复杂度为O(D′DT+D′ttt′+2D′T′)。由于TABL具有与BL中相同的计算步骤,并对注意力步骤进行了额外计算,因此TABL的总计算复杂度为O(D′DT+D′T T′+2D′T′+D′T+3D′T),最后两项来自应用注意力maskA。为了比较我们提出的双线性结构中的瞬时注意mec-hanism和循环结构中的注意mec-hanism,我们估计了[3]中提出的基于注意的序列RNN(ASeq RNN)的复杂性作为参考。Le t D′表示编码器、内存和解码器模块中隐藏单元的尺寸。此外,我们假定输入和输出序列的长度相等。ASeq RNNAR的总内存和计算复杂度分别为O(3D′D+11D′2+11D′)和O(11T D′2+20T D′+4T D′+3T D′D+T)。附录B中给出了估算的详细信息。虽然电流和双线性弧结构的配置无法直接进行比较,但很明显,ASeq RNN与提议的TABL相比具有更高的记忆和计算复杂性。应该注意的是,ASeq RNN的给定复杂性是基于GRU推导的,GRU与LSTM相比具有更低的内存和计算复杂性。

17
可人4 在职认证  发表于 2022-6-2 17:06:23
然而,时间序列数据的ASeq RNN方差基于LSTM单位[56],[40],这使得它们的计算要求更高。四、 在这一部分的实验中,我们评估了基于大规模高频LOB数据集的中等价格变动预测问题的拟议架构。在详细说明实验装置和数值结果之前,我们首先描述数据集和预测任务。A、 高频限价指令数据在股票市场中,交易者通过订单驱动系统买卖股票,该系统将所有过期的限价指令汇总到限价指令簿中。限价指令是一种以特定价格或更高价格购买或出售一定数量证券的指令类型。在限价订单中,交易人必须指定类型(买入/卖出)、价格和各自的交易量(他/她想要交易的库存项目数量)。买卖限价指令共同构成限价指令簿(LOB)的两面,即买卖双方。在t时,最佳出价(pb(t))和最佳要价(pa(t))分别定义为LOB中的最高出价和最低要价。当收到新的限价订单时,LOB会根据给定的价格对第三方的订单进行聚合和排序,以便将最佳b id和最佳ask价格放置在第一级。如果存在投标价格等于或高于最低ask的限价订单,即pb(t)≥ pa(t),这些订单立即填满并从订单簿中删除。与限价或指令相反,买入市场指令立即以当前最佳卖出价格执行,而卖出市场指令则以当前最佳买入价格执行。到达的市场订单会立即与限额订单簿中的最佳可用价格匹配,然后进行交易,这会使LOB的深度减少一定数量的份额。

18
kedemingshi 在职认证  发表于 2022-6-2 17:06:26
订单中有多个价格水平,在本文中,我们从LOB的两个方面考虑了10个最高价格水平。有关限额订单簿的更多信息,请参见werefer[58]。该下限反映了不同水稻水平下的现有库存供应和需求。因此,基于LOB数据的可用性,可以制定一些分析和预测问题,如订单流量分布建模、最佳出价和要价的联合分布或价格波动的随机分析。阿吉文时间的中间价是一个数量,定义为最佳出价和最佳要价之间的平均值:pt=pa(t)+pb(t)(12)。该数量是一个虚拟价格,因为没有交易可以在这个确切的价格下进行。由于该数量处于最佳出价和最佳卖价之间,其变动反映了LO B和m a市场的动态。因此,能够预测未来中等价格的变化非常重要。我们评估您推荐的架构,任务是预测未来中等价格的变动,给出相应数量的投标和询价。我们使用fig。2、【59】中提供的基线网络拓扑公共可用数据集,称为FI-2010dataset。这些数据是从纳斯达克北欧证券交易所(NASDAQ-Nordic)5只不同行业的芬兰股票中收集的。收集期为2010年6月1日至6月14日,生产订单达10个工作日,约450万个活动。对于每个事件,提取LOB每侧前10个订单的价格和数量,生成40维向量表示。

19
可人4 在职认证  发表于 2022-6-2 17:06:29
在【59】中,作者为10个事件的每个非重叠区块提取了144维特征向量,前40维包含区块中最后一个事件的价格和数量,而其余维度包含区块内提取的信息。特征提取过程总共产生453975个特征向量。对于每个特征向量,数据集包括5个不同水平(h=10、20、30、50、100)的中间价变动(平稳、上涨、下跌)的实验室,对应于未来10、20、30、50、100个事件中的未来变动。有两个使用FI-2010数据集的实验装置。第一个设置是由数据库提供的标准锚定正向拆分,我们将其称为设置1。在InSetup1中,数据集按天划分为9个部分。具体而言,在第k次折叠中,前k天的数据用作列车组,而(k+1)天的数据用作k=1、…、的测试集,第二种设置,称为设置2,来自于最近的作品【47】、【48】,其中对EEP网络架构进行了评估。在Setup2中,前7天用作列车组,而最后3天用作测试组。我们使用数据库提供的z-score规范化数据在两种设置中对我们提出的架构进行评估。B、 网络架构为了评估一般的双线性结构,尤其是拟议的时间注意增强双线性层(TABL),我们构建了三种不同的基线网络配置(A、B、C),其中d={0、1、2}隐藏层都是双线性层(BL)。

20
nandehutu2022 在职认证  发表于 2022-6-2 17:06:33
基线表I实验结果详情见设置1模型精度%精度%召回率%F1%预测水平H=10RR[59]48.00 41.80 43.50 41.00SLFN[59]64.30 51.20 36.60 32.70LDA[46]63.82 37.93 45.80 36.28MDA[46]71.92 44.21 60.07 46.06MCSDA[42]83.66 46.11 48.00 46.72MTR[46]86.08 51.68 40.81 40.14WMTR[46]81.89 46.25 51.29 47.87BO F【55】57.59 39.26 51.44 36.28N-BoF【55】62.70 42.2861.41 41.63A(BL)44.48 47.56 50.78 43.05A(TABL)66.03 56.48 58.09 56.50B(BL)72.80 65.25 66.92 65.59B(TABL)73.62 66.16 68.81 67.12C(BL)76.82 70.51 72.75 71.33C(TABL)78.01 72.03 74.06 72.84预测层位H=50RR【59】43.90 43.30 42.70SLFN【59】47.30 46.40 45.90BoF【55】50.21 42.56 49.57 39.56N-BoF【55】56.52 47.20 58.17 46.15A(BL)46.47 54.58 47.83 44.51A(TABL)54.61 54.89 53.1353.00B(BL)68.09 67.95 67.12 67.16B(TABL)69.54 69.12 68.84 68.84C(BL)74.46 74.20 73.95 73.79C(TABL)74.81 74.58 74.27 74.32预测层位H=100RR[59]42.90 42.90 42.90 41.60SLFN[59]47.70 45.30 43.20 41.00BoF[55]50.97 42.48 47.84 40.84N-BoF[55]56.43 47 47.27 54.99 46.86A(BL)48.90 53.23 45.41 43.40A(表)51.35 51.37 52.02 50.66B(表)66.02 65.78 66.63 65.60B(表)69.31 68.95 69.41 68.86C(BL)73.80 73.43 73.40 73.21C(表)74.07 73.51 73.80 73.52网络配置如图2所示。LLConfications的输入是一个40×10的矩阵,其中包含来自b id和ask端的前10个订单的价格和数量(40个值),跨越了100个事件的历史。这里120×5BL表示输出尺寸为120×5的Bilinea r层。根据基线网络配置,在此引用sA(BL)、B(BL)和C(BL),我们将最后一个BL分类层替换为建议的注意层(TABL),以评估注意机制的有效性。由此产生的基于注意力的配置被表示为A(TABL)、B(TABL)和C(TABL)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-1 03:29