楼主: kedemingshi
1031 20

[量化金融] 高频金融数据中价格变化的张量表示 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
89.2735
学术水平
0 点
热心指数
8 点
信用等级
0 点
经验
24665 点
帖子
4127
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
kedemingshi 在职认证  发表于 2022-6-1 07:34:56 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Tensor Representation in High-Frequency Financial Data for Price Change
  Prediction》
---
作者:
Dat Thanh Tran, Martin Magris, Juho Kanniainen, Moncef Gabbouj,
  Alexandros Iosifidis
---
最新提交年份:
2017
---
英文摘要:
  Nowadays, with the availability of massive amount of trade data collected, the dynamics of the financial markets pose both a challenge and an opportunity for high frequency traders. In order to take advantage of the rapid, subtle movement of assets in High Frequency Trading (HFT), an automatic algorithm to analyze and detect patterns of price change based on transaction records must be available. The multichannel, time-series representation of financial data naturally suggests tensor-based learning algorithms. In this work, we investigate the effectiveness of two multilinear methods for the mid-price prediction problem against other existing methods. The experiments in a large scale dataset which contains more than 4 millions limit orders show that by utilizing tensor representation, multilinear models outperform vector-based approaches and other competing ones.
---
中文摘要:
如今,随着收集到的大量贸易数据的可用性,金融市场的动态对高频交易者既是挑战也是机遇。为了利用高频交易(HFT)中资产的快速、细微移动,必须提供一种基于交易记录分析和检测价格变化模式的自动算法。金融数据的多通道时间序列表示自然建议使用基于张量的学习算法。在这项工作中,我们研究了两种多线性方法对中间价格预测问题的有效性。在一个包含400多万个极限阶的大规模数据集上的实验表明,通过使用张量表示,多线性模型的性能优于基于向量的方法和其他竞争方法。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Computational Engineering, Finance, and Science        计算工程、金融和科学
分类描述:Covers applications of computer science to the mathematical modeling of complex systems in the fields of science, engineering, and finance. Papers here are interdisciplinary and applications-oriented, focusing on techniques and tools that enable challenging computational simulations to be performed, for which the use of supercomputers or distributed computing platforms is often required. Includes material in ACM Subject Classes J.2, J.3, and J.4 (economics).
涵盖了计算机科学在科学、工程和金融领域复杂系统的数学建模中的应用。这里的论文是跨学科和面向应用的,集中在技术和工具,使挑战性的计算模拟能够执行,其中往往需要使用超级计算机或分布式计算平台。包括ACM学科课程J.2、J.3和J.4(经济学)中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Computer Science        计算机科学
二级分类:Numerical Analysis        数值分析
分类描述:cs.NA is an alias for math.NA. Roughly includes material in ACM Subject Class G.1.
cs.na是Math.na的别名。大致包括ACM学科类G.1的材料。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--

---
PDF下载:
--> Tensor_Representation_in_High-Frequency_Financial_Data_for_Price_Change_Prediction.pdf (168.42 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:价格变化 金融数据 Presentation Applications Quantitative

沙发
kedemingshi 在职认证  发表于 2022-6-1 07:35:00
用于预测Thanh Tran价格变化的高频财务数据中的张量表示*, Martin Magris+,Juho Kanniainen+,Moncef Gabbouj*& Alexandros Iosi fidis*芬兰坦佩雷坦佩雷理工大学信号处理实验室+芬兰坦佩雷坦佩雷理工大学工业和信息管理实验室奥胡斯大学工程、电气和计算机工程系,奥胡斯,丹麦电子邮件:{dat.tr anthanh,martin.magris,juho.kanniainen,moncef.gabbouj}@tut。Fi,alexandros。iosi公司dis@eng.au.dkAbstract-如今,随着所收集的大量贸易数据的可用性,金融市场的动态为高频交易员带来了挑战和机遇。为了利用高频交易(HFT)中资产的快速、细微移动,必须提供一种基于交易记录分析和检测价格变化模式的自动算法。金融数据的多通道时间序列表示自然表明了基于张量的学习算法。在这项工作中,我们研究了两种多线性方法对中间价格预测问题的有效性,并与其他现有方法进行了比较。在一个包含400多万个极限阶的大规模数据集上的实验表明,通过使用张量表示,多线性模型优于基于向量的方法和其他竞争方法。一、 简介高频交易(HFT)是一种自动化交易形式,它依赖于市场的快速、细微变化来买卖资产。HFTis高速和短期投资期的主要特点。与长期投资者不同,高频交易者在较短的时间内以较大的成交量从较低的价格变化幅度中获利。

藤椅
能者818 在职认证  发表于 2022-6-1 07:35:03
这就需要有观察市场动态的能力,以预测未来的变化并采取相应的行动。在定量分析中,数学模型被用来模拟金融市场的某些方面,以预测资产价格、股票趋势等。传统数学模型的性能与手工制作的特征密切相关。随着不可计算能力的发展,越来越多的机器学习模型被引入到预测金融市场行为中。HFT中流行的机器学习方法包括回归分析[1]、[2]、[3]、[4]、[5]、多层前馈网络[6]、[7]、[8]、卷积神经网络[9]、递归神经网络[10]、[11]、[12]。由于大量数据和市场的不稳定行为,基于神经网络的解决方案被广泛采用,以学习数据的适当表示和相应的分类。这解决了手工制作模型的限制。人们提出了各种深层结构,从传统的多层前馈模型[6]、[7]、[8]到卷积神经网络(CNN)[9]、递归神经网络(RNN)[10]、[11]、[12]、深层信念网络[13]、[14]、[15]。例如,在[9]中,一个具有二维和一维卷积掩模的CNN被训练来预测股票价格的变动。在一个类似的基准HFT数据集上,提出了一个具有长-短期记忆单元(LSTM)[12]和/或神经特征袋(N-BoF)[16]网络泛化(discr-iminant)特征袋模型(BoF)[17]的RNN来执行相同的预测任务。张量表示提供了时间序列数据的自然表示,其中时间对应于一个张量序。因此,研究利用张量表示的机器学习模型是很直观的。

板凳
kedemingshi 在职认证  发表于 2022-6-1 07:35:06
在传统的基于向量的模型中,特征从时间序列表示中提取,并形成模型的输入向量。将张量表示转换为矢量表示的预处理步骤可能会导致时间信息的丢失。也就是说,由于矢量化,学习的分类器可能无法捕捉时空信息之间的相互作用。由于许多基于神经网络的解决方案,如CNN或RNN,直接以张量形式学习数据,这可以解释为什么许多神经网络实现会执行具有手拉特征的传统向量模型。随着数学工具和算法在处理传感器输入方面的进步,许多多线性鉴别技术以及传感器回归模型已被提出用于图像和视频分类问题,如[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]、[27]。然而,很少有研究基于张量的MULTILINE ar方法在解决典型问题中的性能的工作【28】。与需要对网络拓扑和参数进行大量调整的神经网络方法不同,基于张量的多线性技术的美妙之处在于,目标函数易于解释,而调整模型所需的参数很少。在这项工作中,我们建议使用两种基于时间序列财务数据张量表示的多线性技术,根据从限价订单簿(LOB)数据获得的信息预测中间价变动。

报纸
能者818 在职认证  发表于 2022-6-1 07:35:10
具体而言,本文的贡献如下o我们研究了基于张量的判别技术的有效性,特别是多线性判别分析(MDA)在高频极限订单数据中等价格变动的大规模预测问题中的有效性我们提出了一种基于张量表示的简单回归分类器,利用股票限价单的当前和过去信息来提高基于向量的回归技术的性能。在观察所提出算法的学习动态的基础上,还讨论了选择最佳模型状态的有效方案。论文的其余部分组织如下。第2节回顾了LOB提供的信息以及为解决这一问题而提出的相关方法所带来的中间价波动预测问题。在第3节中,再次介绍了MDA和我们提出的张量回归方案a。第4节展示了所提出方法的实验分析,并将其与大规模数据集上的现有结果进行了比较。最后,第5节得出了结论。二、高频限价订单数据在金融中,向银行或券商发出的限价订单是一种以特定价格买卖一定数量资产的交易订单。限价指令有两种类型:一种是买入限价指令,另一种是卖出限价指令。在卖出限价指令(ask)中,规定了最低售价和相应的资产量。例如,1000股的卖出限价指令,最低奖金为每股20美元,表明投资者希望卖出最高奖金为20美元的股票。同样,在买入限价单(bid)中,必须指定最高买入价格及其各自的交易量。这两种类型的限价单通常构成了买入和卖出的两面。

地板
大多数88 在职认证  发表于 2022-6-1 07:35:13
LOB根据给定的价格对双方的订单进行聚合和排序。实例t时的最佳出价p(1)b(t)被定义为买方愿意支付每股的最高可用价格。最佳要价p(1)a(t)是卖方愿意在某一时间点出售每股的最低可用价格。对LOB进行排序,以便最佳b id和要价位于书的顶部。交易通过基于多种条件的匹配机制出现。当最佳买入价超过最佳卖出价,即p(1)b(t)>p(1)a(t)时,两个投资者之间发生交易。除了执行之外,订单还可以通过取消从订单簿中消失。考虑到LOB数据的可用性,可以计算出几个问题,例如价格趋势预测、订单流量分布估计或检测导致价格变动动荡的异常事件。提高LOB数据可用性的一项热门任务是预测中间价的变动,即根据一组衡量指标对中间价是上涨、下跌还是保持稳定进行分类。中间价是一个数量,定义为给定时间内最佳出价和最佳要价之间的平均值,即pt=p(1)a(t)+p(1)b(t)(1),这可以很好地估计价格。本文中使用的LOB数据集【29】被称为FI 2010,收集自5个不同行业的5种不同芬兰股票(Kesko、Outokumpu、Sampo、Rautaruukki和Wartsila)。收集期为2010年6月1日至6月2日14日,产生10个工作日的订单数据。所提供的数据是根据流量事件【30】提取的,流量事件总计约450万次。每个事件都包含来自LOB各方面前10名的信息。

7
可人4 在职认证  发表于 2022-6-1 07:35:15
由于每个订单都由aprice(bid或ask)和相应的卷组成,因此每个orderevent由一个40维向量表示。在文献[29]中,每10个事件提取144维特征向量,得到453975个特征向量样本。对于每个特征向量,FI-2010包含一个相关标签,该标签指示未来10个订单事件中的中间价格变动(增加、减少、固定)。为了避免每个维度的d个不同量表的影响,使用z分数归一化x norm=x对数据进行标准化-(R)xσx(2)鉴于FI-2010的大规模,已经提出了许多神经网络解决方案来预测m id价格的未来走势。在[9]中,提出了一种对原始数据进行操作的CNN。该网络由8层组成,输入层大小为100×40,包含100个连续事件的40维向量表示。隐藏层包含2D和1D卷积层以及maxpooling层。在[12]中,提出了一种RNN体系结构,该体系结构具有LSTM单元,也可以在类似的原始数据表示上运行,并针对订单价格和卷使用单独的规范化方案。除了传统的深层架构之外,还提出了一种NBoF分类方法[16],用于中等价格预测问题。

8
能者818 在职认证  发表于 2022-6-1 07:35:18
[16]中的N-BoF网络是在15个连续的144维特征向量上建立的,这些特征向量包含来自150个最新订单事件的订单信息,并预测下一个k={10,50,100}订单事件的移动。应注意的是,上述所有神经网络解决方案不仅利用了当前订单事件的信息,还利用了最近的信息。我们认为,最近订单事件的信息在中等价格动态建模中起着重要作用。下一节将介绍MDA分类和我们的ProposedRegression模型,该模型考虑了过去订单信息的贡献。三、 基于张量的金融数据多线性方法在引入分类器来解决中间价格预测问题之前,我们将从多线性代数中使用的符号和概念开始。A、 多线性代数概念在本文中,我们用小写或大写字符s(x,y,x,y…)表示标量值,小写黑体字矢量(x,y,…),按大写黑体字符(A、B、…)排列的矩阵和作为书法大写字母的张量(X,Y,…)。在模式K中具有K个模式和维度ik的张量表示为X∈ RI×I×····×IK。k=1,…,模式k中第k个索引中的条目,K表示为asXi,i,。。。,iK。定义1(Mode-k光纤和Mode-k展开):tenso r X的Mode-k光纤∈ RI×I×······································。X的mode-k展开,也称为mode-k矩阵化,将张量X转换为矩阵X(k),矩阵X(k)是通过将mode-k纤维排列为列而形成的。X(k)isRIk×I'k的形状,I'k=QKi=1,i6=kIi。定义2(Mode-k乘积):Mode-k乘积在张量X=【xi,…,xiK】之间∈ RI×。。。IKand amatrix W∈ RJk×ik是另一个大小为I×····×Jk×·····×ik的张量,用X×kW表示。

9
能者818 在职认证  发表于 2022-6-1 07:35:21
X×kW的元素定义为【X×kW】i,。。。,ik-1,jk,ik+1,。。。,iK=PIKik=1[X]i,。。。,ik-1,ik,。。。,iK[W]jk,iK。根据k型产品和k型未折叠的定义,以下方程式保持(X×kWT)(k)=WTX(k)(3)为方便起见,我们表示X×W×····×KWKbyXQKk=1×kWk。B、 多线性判别分析MDA是线性判别分析(LDA)的扩展版本,它利用Fisher准则[31]作为学习子空间的最佳准则。MDA不是寻找最优的向量子空间,而是学习一个tenso r子空间,在该子空间中,通过最大化类间距离和最小化类内距离来分离不同类别的数据。因此,目标函数最大化了预测sp ace中组间距离和组内距离之间的比率。形式上,让我们将N个张量样本集表示为X,XN公司∈ RI×··××IK,i=1,N、 每个都有一个关联的d类标签ci,i=1,C、 此外,Xi,jdenotes是来自CIAN类的第j个样本,nidenotes是来自ci类的样本数。C类的平均张量计算为Mi=niPnij=1Xi,Jan,总平均张量为M=NPCiPnij=1Xi,j=NPCi=1niMi。MDA寻找一组投影矩阵Wk∈RIk×I′k,I′k<Ik,k=1,K那张地图Xi,jto Yi,j∈RI′×······································································I′。

10
mingdashike22 在职认证  发表于 2022-6-1 07:35:24
,WK)=DbDw(5),其中DB=CXi=1nikMiKYk=1×kWk- MKYk=1×kWkkF(6)和dw=CXi=1niXj=1kXi,jKYk=1×kWk- MiKYk=1×kWkkF(7)分别是组内距离和组内距离。(6)和(7)中的下标F表示Frobenius范数。D测量投影后每个类别平均值M和全局平均值M之间的总平方距离,同时测量每个样本及其各自平均值传感器之间的总平方距离。通过最大化(5),我们找到了一个10-sor子空间,其中数据在同一类中的分布是最小的,而在每一类之间的分布是最大的。随后,可以通过简单地选择测试样本与判别子空间中每个平均值之间的最小距离来进行分类。由于(4)中的投影揭示了每个模式k之间的依赖性,因此无法单独优化每个Wk。通常使用迭代方法来解决(5)[[27]、[26]、[32]中的优化问题。在这项工作中,我们建议使用CMDA算法[32],该算法在每个投影矩阵上假设正交约束xwtkwk=I,k=1,K,并通过迭代解决每个模式K的跟踪比问题来解决(5)。具体而言,Db和Dw可以通过展开模式K中的张量来计算,如下所示Db=trCXi=1nih惯性矩- MKYp=1×pWTpi(k)h惯性矩- MKYp=1×pWTpiT(k)(8) andDw=trCXi=1niXj=1hXi,j- 惯性矩KYp=1×pWTpi(k)hXi,j- 惯性矩KYp=1×pWTpiT(k)(9) 其中,(8)和(9)中的tr()表示跟踪运算符。通过利用(3)中的标识,Dband Dware进一步表示为sdb=trWTk公司CXi=1nih(Mi- M) KYp=1,p6=k×pWTpi(k)h(Mi- M) KYp=1,p6=k×pWTpiT(k)工作时间:= tr公司WTkSkbWk(10) andDw=trWTk公司CXi=1niXj=1h(Xi,j- Mi)KYp=1,p6=k×pWTpi(k)h(Xi,j)- Mi)KYp=1,p6=k×pWTpiT(k)工作时间:= tr公司WTkSkwWk(11) 其中,Skband Skwin(10)和(11)表示mo de-k中的内部类别和内部类别散射矩阵。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 18:58