楼主: 可人4
1405 41

[量化金融] 基于异构信息融合的股市预测改进 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-6-2 20:28:54
虽然这些作品通过融合情感来展示其效果,但它们忽略了其他重要因素,如模型中的新闻事件。除了上述分别考虑事件或情绪的研究外,最近的研究开始调查它们的共同影响。【33】研究了新闻文章如何影响交易活动,也验证了情绪影响。与我们最接近的方法是【12、13】,其中事件和情绪也被整合到张量框架中,并与特定特征(例如,市盈率、市盈率)结合,以模拟对股市波动的联合影响。然而,他们为每天的每只股票建立了一个张量,这导致了一系列的缺点。首先,使用该方法,每个股票都需要设置一组参数,因此,由于市场上有大量股票,因此这是一种充满参数的方法,如果不仔细调整,很难在各种情况下实现鲁棒性。其次,他们没有考虑到股票之间存在的关系,因此无法利用它们的共性来帮助更好地学习每项任务。最后,他们没有解决数据稀疏性问题。相反,当他们建立一个时间序列张量流时,问题会恶化,即在每个时间单位(例如,天或小时)为每个股票建立一个张量。除了事件和情感,还有一些作品从网络信息中提取其他特征。例如,推特活动与股市之间的关系是在基于图形的视图下研究的【34】。具体而言,一家公司的每条推文都用一个图表表示,从中提取基于活动(例如,哈希标签的数量)和基于图表的特征(例如,链接结构)进行互相关系数分析。

12
kedemingshi 在职认证  发表于 2022-6-2 20:28:57
然而,结果表明,阿斯托克的价格与所分析的特征弱相关。通过结合分析师在网络上的建议和股票回报,基于贝叶斯推理建立了后验概率模型[35]。行为金融领域也有一些研究讨论了投资者决策过程中过度自信的影响[36,37],但社交媒体对过度自信的影响仍在探索中。此前关于心理过度自信理论的研究表明,投资者倾向于在忽视公共信息的同时,对私人信息进行增持[38]。因此,由于投资者充分了解社交媒体,过度自信可能会得到缓解。另一种观点认为,社交媒体可能会增强过度自信。由于社交媒体中的各种传染病,投资者可能只是寻求与他们之前的信念一致的意见,从而确认他们的信念,而他们往往会有意识地忽视对手【36】。因此,社交媒体与过度自信之间的关系非常复杂,如何衡量过度自信的量化水平与心理学有关,超出了本文的范围,但这是一个有前景的研究方向,可以成为我们未来的工作。股票相关性对于更好地了解股票市场很重要,可以通过多种方式进行衡量。文献[39]中提出了一个耦合随机游动模型来模拟股票相关性,游动通过一种机制进行耦合,即每个股票的价格变化由某个基础网络上的价格梯度激活。股票之间的相关性由维纳过程和随机相关模型之间的相关性反映出来,该模型在[40]中提出。

13
kedemingshi 在职认证  发表于 2022-6-2 20:29:00
股票相关性作为一个时间序列被建模为均值回复过程,以及与指数回报相关的一个术语【41】。在[42]中,发现股票之间的平均相关性与市场压力呈线性关系,市场压力由各种时间尺度上的标准化DJIA指数回报反映。然而,这些现有工作使用了我们提案中不同的股票相关性度量。具体而言,他们没有应用耦合股票相似性度量,也没有使用本文提出的从社交网络中提取的用户感知相关性。此外,与我们的建议不同的是,在耦合矩阵和张量框架中没有使用他们获得的相关性来解决张量分解中的稀疏性问题。还请注意,我们的框架是通用的,通过其他方法获得的股票相关性也可用于此框架。总而言之,与大多数现有研究仅在模型中考虑新闻事件或情绪不同,我们的建议涉及这两个关键驱动因素,并有效地将它们与历史定量数据整合到一个新的耦合矩阵和张量框架中。此外,我们还探索了股票相关性,以促进张量分解,以获得更好的股票预测能力,这是以往研究很少涉及的。3、准备工作3.1。张量分解与重构在这一部分,我们简要介绍了本文使用的数学符号和张量运算。张量是高阶数组,它概括了向量和矩阵的概念。在本文中,我们使用一个三阶张量,表示一个三维数组。标量是0阶张量,用小写字母表示,例如a。向量是1阶张量,用粗体小写字母表示,例如a。

14
kedemingshi 在职认证  发表于 2022-6-2 20:29:03
矩阵是二阶张量,用粗体大写字母表示,例如X,三阶张量用书法字母表示,例如A。向量A的第i项用ai表示,矩阵xx的元素(i,j)用xij表示,三阶张量A的元素(i,j,k)用aijk表示。矩阵X的第i行和第j列分别用xi和X:j表示。或者,矩阵的第i行ai也可以表示为ai。张量a的范数∈ RN×M×定义为:kAk=VuTunxi=1MXj=1LXk=1ai,j,kt这类似于矩阵Frobenius范数,对于amatrix X X表示为kX k。张量C的n模乘积∈ RI×I×I,带矩阵U∈RIn×J,用C×nU表示,是大小为I×。。。×英寸-1×J×In+1×。。。x in与元素(C×nU)i。。。在里面-1jin+1。。。iN=PInin=1ai,i,iNuinj。张量a的Tucker分解∈ RN×M×定义为:A=C×U×V×其中,U∈ RN×R,V∈ RM×砂W∈ RL×Tar是因子矩阵,可以被视为每种模式的主成分。tensorC公司∈ RR×S×t核心张量及其条目显示了不同成分之间的相互作用水平。重构张量是通过将核心张量与三因子矩阵相乘而得到的。可以观察到,张量分解和重建更新了每个现有条目的值,表明了其重要性,并填充了一些新条目,显示了最新的关系。一般来说,张量分解可以看作是矩阵分解的一种推广。在分解过程中,可以在子空间中投影数据,其中包括潜在的重要性。3.2. 耦合属性值相似性本文利用股票相关性来促进预测,并设计相似性度量来获得此类相关性。

15
可人4 在职认证  发表于 2022-6-2 20:29:06
传统的相似性度量通常假设对象的属性相互独立,不考虑属性之间的相互作用来计算相似性。然而,不同属性之间的耦合效应存在于广泛的应用中。我们以演员和类型这两个与电影相关的属性为例。演员成龙在动作片中的出现频率高于其他类型的电影,而演员吉姆·凯瑞更可能在喜剧电影中扮演角色。因此,除了考虑属性内的内部耦合相似性外,还应考虑不同属性间的内部耦合相似性。形式上,具有相同特征的大量数据对象可以通过这样的信息表S来组织,其中U={U,U,…,um}是一组实例,a={a,a,…,an}是每个实例的n属性集。VJI是特征aj和fj:U的所有值的集合→ VJI是一个映射函数,返回实例的属性aj值。接下来,我们将介绍一种计算内部耦合和内部耦合相似度的方法。内部耦合属性值相似度(IaAVS)。根据[43],属性值的频率分布可以揭示值的相似性。属性aj的值x和y之间的内部耦合相似性δIaj(x,y)定义为:δIaj=| gj(x)|···························································→ 2UI是一个映射函数,返回一组属性值为x的实例。因此,gj(x)定义为:gj(x)={ui | fi(ui)=x,1≤ j≤ n、 1个≤ 我≤ m} 耦合属性值相似度(IeAVS)。

16
nandehutu2022 在职认证  发表于 2022-6-2 20:29:09
属性aj的值x和y之间的耦合属性值相似度δIej(x,y)是所有其他属性(不包括自身)的相对相似度δj | k(x,y)(稍后给出)的总和。δIej(x,y)=nXk=1,k6=jαkδj | k(x,y),其中αkis是属性aj的权重参数,Pnk=1αk=1,αk∈ [0, 1].相对相似度δj | k(x,y)表示基于其他属性ak的属性aj的值x andy之间的相似度。因此,我们有δj | k(x,y)=Xw∈Tmin{Pk | j({w}| x),Pk | j({w}| y)},其中w∈ W是第k个属性值子集,因此W Vk。w∈Tdenotes w∈ ^1j→k(x)Tаj→k(y)和Дj→k: Vj公司→ 2Vkis是一个映射函数,返回实例的属性ak的值子集,其属性Aj的值为x,即φj→k(x)=f*k(gj(x)),其中f*(·)与f(·)的不同之处在于,函数f的输入*(·)是一组实例,而不是单个实例。Pk | j({w}| x)是{w}相对于x的信息条件概率。Pk | j(w | x)可以通过Pk | j(w | x)=| g获得*k(W)Tgi(x)| | gi(x)|此处,g*k(W)是gk(x)随集W作为输入的变化。特别是g*k(W)将一组属性akvalues W映射到一组实例,即*k(W)={ui | fi(ui)∈ W、 1个≤ k≤ n、 1个≤ 我≤ m} 有关耦合属性值相似度的更详细介绍,请参阅[43,44]。股票&定量&数据网&新闻社交&中介&处理器股票&IDEvent&分类识别&极化传感器&分解&张量&重构事件&聚类情绪&分析矩阵股票&定量&特征&矩阵&因子分解&股票&相关&输入计算机图1:股票预测模型的系统框架4。系统框架在本节中,我们描述了拟议的股票价格变动预测系统框架。

17
nandehutu2022 在职认证  发表于 2022-6-2 20:29:12
具体而言,我们首先介绍如何从多个数据源中提取有效特征,然后展示如何将这些特征组合到预测模型中。我们利用历史股票定量数据、网络新闻文章和社交媒体数据构建了一个三阶张量以及两个辅助矩阵,以模拟它们对股价运动的联合影响。总体系统框架如图1所示,由四大部分组成:1)基于存量量化数据的存量量化特征矩阵构建;2) 利用多源数据构建股票相关矩阵;3) 从新闻文章和社交媒体中提取事件和情绪,构建股票运动张量;4) 股票价格变动预测的耦合矩阵和张量因子分解。重建的张量将是系统的输出,并用于股票预测。我们将在本节中描述前三部分,下一节将介绍最后一部分。4.1. 构建股票数量特征矩阵第一步是构建股票数量特征矩阵,其两个维度分别是股票ID和数量特征。对于每个股票i,数量特征表示为向量xi=(xi1,xi2,…,xik,…,xik),其中K是特征的数量,xikis是第K个特征的值。然后,我们对所有特征进行归一化和聚集,形成股票数量矩阵X∈ RN×K,其中N是库存数量。基于之前的研究【45,12】,我们选择了四个常见的量化特征,即股票周转率、市盈率、市盈率和市盈率。

18
可人4 在职认证  发表于 2022-6-2 20:29:15
股票周转率是一种衡量股票流动性的指标,其计算方法是将一段时间内持有的股票总数除以该段时间内发行在外的股票的平均数量。股票周转率越高,公司股票的流动性越强。我们在社交媒体上的调查显示,讨论次数较多的股票通常会吸引更多投资者的注意力,成交量也较高。市盈率在股票市场上的信息量很大,表明投资者可以期望投资一家公司,以获得该公司1美元的收益。总的来说,较高的市盈率表明投资者预计未来会有更高的收益增长。因此,市盈率可以被视为一个基准,用来确定一只股票是否值得购买。请注意,在一段时间内,企业的平均市盈率相对稳定,波动取决于经济条件,但不同行业的市盈率可能会有所不同。因此,类似的公司通常表现出相似的市盈率。市盈率与市盈率相似,市盈率反映了一家公司的内在价值,但在某些情况下市盈率失真时使用,例如,对于市场价值与其股权价值密切相关的金融行业。PCF也是股票估值的常用指标,尤其适用于对现金流量为正但不可盈利的股票进行估值。上述每一个量化特征都可以从一个方面在一定程度上反映一家公司的状况和估值,它们的组合可以从一个全面的角度描述一家公司的估值。这就是为什么我们构造具有各种数量特征的矩阵。对该矩阵进行因式分解后,每个股票将由一个向量(嵌入)表示,可以预期类似股票将具有紧密的定量特征向量。4.2.

19
大多数88 在职认证  发表于 2022-6-2 20:29:18
在股票市场中,股票通常不是相互独立的,它们可以从不同的角度进行关联。例如,它们可能属于同一行业,或者涉及同一主题(例如,降息带来的好处),或者只是历史上价格的共同演变,没有明确的关系。两支股票之间的相关性可以用它们的相似性来描述。传统的相似性度量通常要求对象由数字特征描述,并通过反映数据值关系的几何逻辑来度量其相似性。然而,这些指标的基本假设是,特征遵循独立和身份分布(iid),这表明它们只考虑特征内部的耦合相似性,而忽略了特征之间的依赖关系【43】。在本文中,我们通过考虑特征之间的耦合效应来提取股票之间的耦合相关性,即耦合股票相关性。为了进行比较,我们还开发了三种其他方法来计算相关性,详细描述如下。耦合股票相关性。在股票分析等复杂应用中,不同特征之间通常存在耦合效应。为了捕捉这种影响,受之前工作的启发【43,44】,我们采用了一种耦合股票相似性(CSS)度量方法,通过考虑属性值之间的内部相互作用和属性之间的相互作用来计算股票之间的相关性。在这项工作中,股票的耦合属性包括每个交易日的收盘价和行业指数趋势,这两个属性对于股票来说都是至关重要的,并且在经验上具有耦合效应。

20
nandehutu2022 在职认证  发表于 2022-6-2 20:29:22
特别是,股票价格通常表现出与其行业指数相似的波动趋势。图2描述了耦合股票相关性的思想。给定属性a“值集V\"= {1, -1} 属性a*设置的值V*= {1, -1} 股票内部相似性股票价格变化行业指数变化股票2股票1图2:耦合股票相似性股票属性空间Sa=hS,A,V,fi,其中S={S,S,…,sn}是股票的一组,A={A,A,…,am}是股票的属性集,Vkis是特征ak的所有值的集合,vik是特征ak对于股票si的值,fk:S→ Vkis是一个映射函数,返回股票的属性ak值。然后,两个股票Si和Sj之间的CSS可以定义为Asss(i,j)=XkδIak(Vik,Vjk)* δIek(Vik,Vjk)(1)其中,Vik和Vjk分别是股票sian和sj上特征k的值,δIak(Vik,Vjk)是属性ak的内部耦合属性值相似度,δIek(Vik,Vjk)是可以基于其他耦合属性计算的内部耦合属性值相似度。公式(1)的理论分析和计算方法详情可参考第。3.2和文献[43]。为了推导CSS(i,j),所使用的属性集可以表示为元组it=(pit,cit),其中sit是股票i在第t天的状态。sit有两个属性:(1)pit是股票i在第t天的价格移动方向,1表示上涨,而-1表示下跌;(2) citrepresents在第t天代表了行业(sock ibelongs)指数的变化方向。与此类似,citis的价值1上升,1下降。然后,我们计算每天每对股票si、sjon的CSS(i,j),并在整个培训期间(在我们的案例中为九个月)平均所有CSS(i,j)。协同进化方向相关性。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 15:38