楼主: kedemingshi
1030 20

[量化金融] 高频金融数据中价格变化的张量表示 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-6-1 07:35:27
(5)中的标准可以转化为关于wk的比率问题,同时保持其他投影矩阵固定为asJ工作时间:=tr公司WTkSkbWktr公司WTkSkwWk(12) 在Wk的正交性约束下,由(Skw)的I′klargestiegenvalues对应的I′keigenvectors给出(12)的解-1Sb。通常,正λ被添加到Skwas的对角线上,这是一种正则化,在Skwas不是满秩矩阵的情况下,也可以进行稳定的计算。在训练阶段,随机初始化Wk后,CMDAalgorithm迭代遍历每个模式k,优化与Wk相关的FISHER比率,同时保持其他r投影矩阵固定。当wk中的变化低于阈值或达到指定的最大迭代次数时,该算法终止。在测试阶段,将类别平均值与张量子空间中的测试样本之间存在最小距离的类别分配给测试样本。C、 加权多通道时间序列回归对于FI-2010数据集,为了考虑粘贴形式,可以将对应于10T最阶事件的T 144维特征向量串联起来,形成2模式张量样本,即矩阵Xi∈ R144×T,i=1,N例如,尺寸为144×10的训练张量样本包含FI-2010数据集中100个最新订单事件的信息。10列表示10个时间实例的信息,第10列包含最晚的存储者信息。144行中的每一行编码了144个特征(或通道)随时间的时间演化。通常,给定N个2模张量Xi∈ RD×T,i=1,属于类别标签ci=1所指示的C类的N。

12
nandehutu2022 在职认证  发表于 2022-6-1 07:35:30
,C,建议的加权多通道时间序列回归(WMTR)学习以下映射函数fXi)=WTXiw(13),其中W∈ RD×Cand w∈ r可学习的参数。(13)中的函数f将每个输入张量映射到一个C维(目标)向量。解释f的一种方法是,Wmaps将每个时间实例的D维表示为a维(子)空间,而W通过使用加权平均法将每个时间实例的贡献组合到一个向量中。为了处理不平衡的数据集,如FI-2010,参数W,对于WMTR模型,通过最小化以下加权最小二乘准则来确定W、 W=NXi=1sikWTXiw- yikF+λkWkF+λkWkF(14),其中yi∈ RCis第i个样本的对应目标,所有元素等于-1除cith元素外,cith元素设置为1。λ和λ是与Wand w相关的预先定义的正则化参数。我们将预先定义的权重siequal的值设置为1/rpNci,r>0,即与属于样本i的c类的训练样本数成反比,因此较小类中的误差对损失的贡献最大。每个类别的权重由参数r控制:r越小,次要类别对损失的贡献越大。当r→ +∞, i、 e.si=1,i、 我们通过应用迭代优化过程来解决(14),该过程交替地保持一个参数固定,同时优化另一个参数。具体而言,by fixin g wwe存在以下最小化问题JW=kWTX公司- YSkF+λkWkF(15),其中X=Xw,XNw公司∈ RD×N,Y=[Y,…,yN]∈ RC×Nand S∈ RN×Nis是一个具有Si,i的诊断矩阵=√si,i=1,N

13
nandehutu2022 在职认证  发表于 2022-6-1 07:35:33
通过解决JW=0,我们得到(15)asW的解*=XSSTXT+λI-1xStyt(16),其中I是适当大小的单位矩阵。类似地,通过定义W,我们有以下关于wJ(W)=kS的回归问题Xw公司- YkF+λkwkF(17),其中X=XTW,XTNW公司T∈ RCN×T,Y(1)=[yT,…,yTN]T∈ RCNand S∈ RCN×Cn是具有SC(i)的对角矩阵-1) +k,C(i-1) +千=√硅;k=1,Ci=1,N与W类似,通过求解(17)的平稳y点获得的最佳WI,其给定为asw*=XTSTSX+λI-1XTSTSY(18)上述过程由两个凸问题组成,每个处理步骤都得到全局最优解。因此,整个过程需要为组合回归准则寻找局部最优值。当Wand WARE中的更改降低阈值或达到最大迭代次数时,该算法终止。在测试阶段,(13)中的f将测试样本映射到自然空间,类别标签由投影测试样本的m最大元素的索引推断。通常,多线性方法(包括多线性回归方法)是随机初始化的。这意味着,在我们的案例中,可以随机初始化w0 10 20 30 40 50迭代0.30.40.50.60.70.80.9AccuracyPrecisionRecallF1Fig中的参数。1、WMTR对训练数据的性能测量,以确定第一次迭代中存储的最佳回归值。然而,由于WMTR应用于LOB数据时,WEN的值编码了整体回归中每个时间实例的贡献,因此我们选择将其初始化为w=[0 0…1]T。也就是说,WMTR的第一项对应于基于向量的回归,仅使用当前时间实例的代表。获得此映射后,通过求解w.IV.EXPERIMENTSA确定所有时间实例的最佳加权平均值。

14
可人4 在职认证  发表于 2022-6-1 07:35:36
实验设置我们在FI-2010数据集上进行了大量实验,以比较多线性方法(即MDA和建议的WMTR)与其他现有方法(包括LDA、岭回归(RR)、单隐层前馈网络(SLFN)、BoF和N-BoF)的性能。此外,我们还将WMTR与其未加权版本(以MTR表示)进行了比较,以说明加权在学习函数中的作用。关于列车/测试评估协议,我们遵循了数据库提供的锚定前向交叉验证片段【29】。具体来说,基于日的交叉验证有9倍;对于ea c h连续翻倍,培训集增加一天,最后一天用于培训的第二天用于测试,即对于第一次翻倍,第一天的数据用于培训,第二天的数据用于测试;对于第二次测试,第一天和第二天的数据用于测试,第三天的数据用于测试;最后一次,前9天的数据用于培训,第10天用于测试。关于所提出的多线性技术的输入表示,MDA和WMTR都接受大小为R144×10的输入张量,其中包含10个连续顺序事件的信息,最后一列包含最后10个顺序事件的信息。对于LDA、RR和SLFN,每个0 5 10 15 20 25 30 35 40迭代0.30.40.50.60.70.80.9精度精度调用F1图。2、MTR对训练数据的性能度量输入向量的大小为R,这是MDA和WMTR输入的最后一列,代表股票的最新信息。张量输入和向量输入的标签都是未来10个订单事件中中间价格的变动,代表我们想要预测的未来走势。

15
nandehutu2022 在职认证  发表于 2022-6-1 07:35:39
由于我们采用了与[29]和[16]中相同的实验方案,因此我们在本文中直接报告了R、SLFN、BoF、N-BoF的结果。每个模型的参数设置如下。对于WMTR,我们将最大迭代次数设置为50,终止阈值设置为1e-6.λ, λ∈ {0.01,0.1,1,10,100}和si=n-1/RCI带r∈ {2, 3, 4}. 对于MTR,除si=1外,所有参数设置与WMTR相似,i、 对于MDA,最大迭代次数和终止阈值的设置类似于WMTR,第一种模式的投影尺寸为5到60,步长为5,而第二种模式的投影尺寸为1到8,步长为1。此外,r egu la rizationamountλ∈ 将{0.01,0.1,1,10,100}添加到Skw的对角线。B、 性能评估应该注意的是,FI-2010是一个高度不平衡的数据集,大多数样本具有固定的中间价格。表I FI-2010Accuracy Precision Recall F1RR 46.00±2.85 43.30±9.9 43.54±5.2 42.52±1.22SLFN 53.22±7.04 49.60±3.81 41.28±4.04 38.24±5.66LDA 63.82±4.98 37.93±6.00 45.80±4.07 36.28±1.02MDA 71.92±5.46 44.21±1.35 60.07±2.10 46.06±2.22MTR 86.08±4.99 51.68±7.54 40.81±6.18 40.14±5.26WMTR 81.89±3.65 46.25±1.90 51.29±1.8847.87±1.91BoF 57.59±7.34 39.26±0.94 51.44±2.53 36.28±2.85N-BoF 62.70±6.73 42.28±0.87 61.41±3.68 41.63±1.900 10 20 40 40 50迭代0.30.40.50.60.70.80.9列车精度F1测试精度F1图。3、WMTR在列车和测试集上的性能度量因此,我们使用每级f1平均得分作为性能度量,以选择模型参数,因为f1表示精度和召回率之间的权衡。更具体地说,对于每次交叉验证,竞争方法都是在训练数据上使用上述参数设置的所有组合进行训练。

16
kedemingshi 在职认证  发表于 2022-6-1 07:35:42
我们选择了在训练集上获得最高f 1分数的学习模型,并在测试集上报告了性能。除f1外,还报告了相应的每级平均精度、平均再校准级和精度。准确度衡量与基本事实相符的公共口述标签的识别率。准确度是真阳性与预测为阳性的样本数之间的比率,召回率是真阳性与假阴性总数之间的比率。f1是精确和召回之间的调和平均值。对于所有测量,高e r值表示性能更好。表1显示了所有9倍比较方法的平均性能和标准偏差。比较两种判别方法,即LDA和M DA,很明显,MDAsigni在所有性能指标上都优于LDA。这是因为MDA对张量输入进行操作,张量输入可以保存当前和过去的信息以及数据的时间结构。与基于向量的方法相比,基于张量的方法的改进在回归(WMTR v s RR)的情况下也是一致的。将多线性技术与N-BoF进行比较,MDA和WMTR在f1、准确度和精确度方面均优于N-BoF,而回忆分数几乎一致。WMTR的表现优于MTRin,这表明权重对于FI-2010等高度不平衡的数据集非常重要。总的来说,MDA和WMT R是这一中等价格预测问题中最主要的竞争方法。C、 WMTR分析图1显示了基于第一组训练数据的MMTR学习过程的动态。re为1 0 5 10 15 20 25 30 35 40迭代0.30.40.50.60.70.80.9列车精度列车F1测试精度F1图。4.

17
能者818 在职认证  发表于 2022-6-1 07:35:45
在培训过程中可以观察到的列车和测试集MTR的性能度量。在前10次迭代中,所有性能度量都得到了显著改善。在第10次迭代后,f1成绩略有下降,然后保持稳定,而准确性继续提高。在每个参数设置中都可以观察到这种现象。由于WMTR使目标标签和预测标签之间的平方误差最小化,因此预计在收敛之前,训练精度会不断提高。经过k次迭代后,f1得分下降的原因如下:在前k次迭代中,WMTR真正了解了训练样本背后的生成过程;然而,在一定程度上,WMTR开始超越数据,成为主导阶级。从MTR中观察到同样的现象,f1的下降更为显著,因为无重量MTR严重超过了主导等级。图2显示了除lossfunction中的类权重外,具有类似参数设置的MTR的训练动态。由于这种行为,为了选择WMTR和MTR的最佳学习状态,我们在每次迭代时测量训练数据上的f1分数,并选择产生最佳f1的模型状态。问题是所选模型在测试数据上是否表现良好?图3和图4绘制了在每个试验点的训练集和测试集上测量的WMTR和MTR的一致性和f 1。很明显,在训练期间产生最佳f1的学习模型在测试数据上也表现最好。对于HWMTR和MTR来说,控制和测试性能之间的差距相对较小,这表明我们提出的算法没有受到过度拟合的影响。

18
nandehutu2022 在职认证  发表于 2022-6-1 07:35:48
虽然MTR和MTR的行为相似,但从MTR中学习到的最佳模型偏向于优势阶级,导致实验结果显示的表现较差。五、 结论在这项工作中,我们研究了多重线性判别分析在处理基于限价订单数据的初始数据预测中的有效性。此外,我们还提出了一种简单的双线性回归算法,该算法利用股票的当前和过去信息来提高传统向量回归的性能。实验结果表明,所提出的方法优于利用向量表示的方法,并且优于利用(可能是深层的)神经网络结构的现有解决方案。六、 确认该项目获得了欧洲联盟地平线2020研究和创新项目(根据MarieSkodowska Curie g rant协议,编号675044BigDataFinance)的资助。参考文献[1]B.Zheng、E.Moulines和F.Abergel,“limitorder book中的价格跳跃预测”,2012年。[2] L.G.Alvim、C.N.dos Santos和R.L.Milidiu,“使用高频预测器进行每日体积预测”,《10thIASTED国际会议记录》,第674卷,第248页,2010年。[3] P.-F.Pai和C.-S.Lin,“股票价格预测中的混合arima和支持向量机模型”,Omega,第33卷,第6期,第497-5052005页。[4] B.Detollenaere和C.D\'hondt,“通过监控限额指令簿识别昂贵交易”,《预测杂志》,第36卷,第3期,第273-2902017页。[5] E.Panayi、G.W.Peters、J.Danielsson和J.-P.Zigrand,“在限价订单市场中指定做市商行为”,计量经济学和统计学,2016年。[6] J.Levendovszky和F.Kia,“基于预测的高频金融时间序列交易”,Periodica Polytechnica。

19
nandehutu2022 在职认证  发表于 2022-6-1 07:35:51
《电气工程与计算机科学》,第56卷,第1期,第29页,2012年。[7] J.Sirignano,“限额订单书的深度学习”,2016年。[8] S.Galeshchuk,《神经网络在汇率预测中的性能》,《神经计算》,第172卷,第446–4522016页。[9] A.Tsantekidis、N.Passalis、A.Tefas、J.Kanniainen、M.Gabbouj和A.Iosi fidis,“使用卷积神经网络从限价订单簿预测股票价格”,IEEE商业信息学会议(CBI),希腊塞萨洛尼基,2017年。[10] M.Dixon,“机器学习高频做市”,2016年。[11] M.Rehman、G.M.Khan和S.A.Mahmud,“使用cgp和递归神经网络的外汇百科全书汇率预测”,IERIProcedia,第10卷,第239-2442014页。[12] A.Tsantekidis、N.Passalis、A.Tefas、J.Kanniainen、M.Gabbouj、andA。Iosi FIDIS,“利用深度学习检测金融市场的价格变化指标”,欧洲信号处理会议(EUSIPCO),希腊Kos,2017年。[13] A.Sharang和C.Rao,“将机器学习用于中频衍生品组合交易”,arXiv预印本arXiv:1512.062282015。[14] J.Hallgren和T.Koski,“高频数据的连续时间贝叶斯网络模型因果关系测试”,arXiv预印本XIV:1601.066512016。[15] J.Sandoval和G.Hern'andez,“创建高频外汇阅读策略的theorder book dynamics计算可视化分析”,Promedia Computer Science,第51卷,第1593-16022015页。[16] N.Passalis、A.Tsantekidis、A.Tefas、J.Kanniainen、M.Gabbouj、andA。Iosi fidis,“使用神经特征袋的时间序列分类”,欧洲信号处理会议(EUSIPCO),希腊Kos,2017年。[17] A.Iosi fidis、A.Tefas和I.Pitas,“基于词的鉴别袋用于人类行为识别”,模式识别信函,第49卷,第185-192页,2014年。[18] A。

20
可人4 在职认证  发表于 2022-6-1 07:35:54
Shashua和A.Levin,“使用张量秩原理进行回归和分类的线性图像编码”,计算机视觉和模式识别,2001年。CVPR 2001。2001年IEEEComputer Society会议记录,第1卷,第一–一页,IEEE,2001年。[19] J.Yang,D.Zhang,A.F.F rangi和J.-y.Yang,“二维pca:基于外观的人脸表示和识别的新方法”,IEEE模式分析和机器智能学报,第26卷,第1期,第131-137页,2004年。[20] K.Liu,Y.-Q.Cheng,和J.-Y.Yang,“基于最佳鉴别准则的图像识别代数特征提取”,PatternRecognition,第26卷,第6期,第903-911页,1993年。[21]H.Kong、E.K.Teoh、J.G.Wang和R.Venkateswarlu,“二维判别分析:忘记小样本问题[人脸识别应用]”,声学、语音和信号处理,2005年。P程序。(ICASSP\'05)。IEEE国际会议,第2卷,第ii–761页,IEEE,2005年。[22]J.Ye、R.Janardan和Q.Li,“二维线性判别分析”,神经信息处理系统进展,第1569–15762005页。【23】X.He、D.Cai和P.Niyogi,《张量子空间分析》,《Advancesin神经信息处理系统》,第499–5062006页。[24]D.Cai、X.He和J.Han,“基于张量分析的子空间学习”,技术代表,2005年。【25】M.A.O.Vasilescu和D.Terzopoulos,“图像集合的多线性子空间分析”,计算机视觉和模式识别,2003年。诉讼程序。2003年IEEE计算机学会会议,第2卷,第II–93页,IEEE,2003年。[26]S.Yan,D.Xu,Q.Yang,L.Zhang,X.Tang和H.-J.Zhang,“张量表示的判别分析”,计算机视觉和模式识别,2005年。CVPR 2005。IEEE计算机学会会议,第1卷,第526–532页,IEEE,2005年。[27]D.Tao,X.Li,X。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 15:18