楼主: 可人4
1407 41

[量化金融] 基于异构信息融合的股市预测改进 [推广有奖]

21
能者818 在职认证  发表于 2022-6-2 20:29:25
我们还试图通过简单计算两支股票在价格变动中的共同演变次数来了解它们之间的相关性。特别是,对于每一对股票,如果它们的收盘价与前一交易日的收盘价相比都上涨(或下跌),则它们在当天被称为共同进化。给定一个时间段(例如,一年),两支股票共同进化的天数越多,它们的相关性就越密切。形式上,假设两个股票SSI和sjco演化的天数为N,总交易天数为M,则它们之间的相关系数为N/M,这也是股票相关矩阵Z的条目Zijin值。共同演化p变化相关性。股票在交易日i的p变化值定义为其在交易日i的收盘价与前一日收盘价之间的变化率(i-1). 通过组合每个股票在一段时间内所有交易日的p变化,我们可以得到每个股票的p变化曲线。然后,根据p-变化曲线,应用Pearson相关系数测量每对股票的协进化p-变化相关性。该测量同时考虑了波动方向和波动范围,以反映共同演化的运动。用户感知的相关性。除了获得与股票定量数据的相关性外,我们还可以通过中国类似推特的投资者社交网络雪球(Xueqiu)提取用户感知的相关性。为了获得这种相关性,我们收集了同一条推文中提到的所有成对股票,然后删除了提到五个以上连续股票行情的推文,因为这些推文通常不会对我们的任务传达有用的意义。使用上述方法,可获得每对股票的相关系数。

22
可人4 在职认证  发表于 2022-6-2 20:29:28
接下来,将其归一化并填入股票相关性矩阵Z∈ RN×N,其条目zijis为归一化相关值betweenhttps://xueqiu.com/stocki和stock j。zi越大,j表示stocksi和j之间的相关性越高。请注意,上述每个方法都可以提供一个相关矩阵作为耦合矩阵和张量因子分解模型的输入,我们将根据实验部分的评估结果经验选择最佳的方法。4.3. 构建股票运动张量我们使用张量来表示从多个数据源收集的股票ID、事件和情绪。原因是事件的后果通常很复杂,因此仅依靠事件不足以做出良好的预测。例如,在不同的情况下,收购公告可能是正面消息,也可能是负面消息。为了解决这个问题,从社交媒体中提取的情感,代表了人们对事件的看法,可以作为一种有效的补充。具体而言,积极情绪通常表示事件对股票有利,而消极情绪则表示相反。形式上,我们建立了一个三阶张量a∈ RN×M×L,其三个维度为股票ID、事件类别和社会情绪极性。请注意,无事件发生也被视为事件的一种类型。接下来,我们将展示如何分别从网络新闻和社交媒体中提取事件和情感。事件提取。之前的工作【4】表明,与新闻内容相比,新闻标题更适合提取事件。因此,本文仅从新闻标题中提取事件。在标题中,我们使用动词或动名词来表示事件,因为它们信息量很大。例如,在新闻标题“MicrosoftToAcquire LinkedIn”中,动词“acquire”可以很好地表示事件。

23
能者818 在职认证  发表于 2022-6-2 20:29:31
请注意,我们不考虑标题中的主题或对象,因为在我们的网络新闻数据源中,新闻已分配给相关股票,这将是事件的主题或对象。数据源将在第节中描述。6.1.为了提取事件,我们首先将新闻标题用解巴语进行切分,https://github.com/fxsjy/jiebaan用于中文文本分割的开源python组件。对于词性标记的每个部分,我们接下来提取新闻标题中的动词和动名词。如果我们直接使用提取的动词和动名词(我们的例子中超过6000个)来构造张量,那么张量将非常稀疏,从而无法获得良好的预测精度。我们观察到,许多标题实际上指的是同一类型的事件,但属于不同的事件类别。例如,两个标题“Microsoft收购LinkedIn”和“Microsoft收购LinkedIn”可以被视为同一事件,但呈现方式不同。为了解决这个问题,我们研究了提取的动词和动名词的语料库,并将同义词与语言知识库《知网》进行聚类[46]。为了进一步降低事件类别的维数,我们接下来根据事件类别的单词嵌入对其进行聚类。具体而言,我们使用word2vector(47)和中文金融新闻语料库(48)来训练特定领域的单词嵌入,维度数设置为100。然后,我们应用k-means方法对嵌入进行聚类,得到500个聚类,这是经验设置的。太多的星团可能导致传感器过于稀疏,而太少的星团可能不足以将不同类型的事件划分为不同的类别。请注意,单词embedded不能区分反义词,即反义词可能属于同一类。

24
大多数88 在职认证  发表于 2022-6-2 20:29:34
例如,在股票市场的背景下,“上涨”和“下跌”的嵌入向量可能彼此接近(因此在同一集群中),但它们对股票运动的含义完全不同。因此,需要手动更正,以将同一组中的反义词分为不同的组。由于同一组中有97个反义词,我们创建了97个新组,最终将新闻标题分为597个事件类别。情感提取。对于每只股票,我们通过从投资者社交媒体中提取用户的帖子,分析其每天的公众情绪极性(即积极或消极)。我们使用[12]中提出的方法来计算公众情绪,该方法主要利用以下信息:每条帖子的发布时间、标题、点击次数和评论数。与[12]不同的是,我们开发了一个专门的情感词典,重点关注基于NTUSD的金融社交媒体[49]。新的情感词典包含了大量在金融领域具有情感极性的单词,例如上升、下降、上升和下降。为了获得背道的情感极性,我们首先使用解霸对帖子进行分段,然后使用情感词典提取情感词。然后,我们计算每天每个股票的积极和消极情绪值。情绪值由S+it=KXj=0PjtLjt×wjt计算,其中S+是股票i在t天的积极情绪值,pjt是股票i在t天发布的帖子j中的积极情绪词数量,ljt是在t天发布的帖子j中的情绪词总数,wjt是帖子j的权重,这表明了对社交媒体的影响程度,可以通过点击和评论的数量来计算。具体计算方法参见【12】。

25
大多数88 在职认证  发表于 2022-6-2 20:29:37
最后,通过将股票的正值和负值之间的差异与预先确定的阈值进行比较,可以获得股票一天的情绪极性。在提取每个股票每天的事件和情绪后,我们可以为每个交易日的所有股票构造一个股票运动张量。A条目的正(负)值(anml=1或-1) 张量表示当事件m发生时,股票价格n上升(下降),同时公众情绪为l。然而,由于一只股票的事件稀疏,张量过于稀疏。因此,我们将过去很长一段时间内的张量进行聚合,以形成一段时间内密度更大的历史张量,从而形成一个历史张量。具体而言,每天张量中的相应输入值将被聚合以形成上涨概率,表明当股票满足特定事件类别和特定情绪极性时,股价上涨的概率。例如,给定过去十个交易日内的十个张量,如果条目ANML在所有十个张量中有六个“+1”和四个“-1”,则其向上概率为0.6。在聚合之后,由于股票运动张量对于准确的分解仍然是稀疏的,因此我们将应用股票相关矩阵和股票定量特征矩阵来辅助其分解,这将在下一节中描述。耦合矩阵和张量分解在上一节中,我们展示了如何构建股票运动张量。虽然已经应用了几种技术来降低事件类别的维数,但张量仍然非常稀疏,因为与每个股票相关的事件数量非常有限。因此,单独分解传感器并不能很好地做出非常准确的预测。为了解决这个问题,可以将来自其他数据源的辅助信息合并到Assist中。

26
nandehutu2022 在职认证  发表于 2022-6-2 20:29:40
在这项工作中,额外的信息包括股票相关性和股票数量特征,它们位于两个矩阵中,股票数量特征矩阵X和股票相关性矩阵Z。这种耦合模型的主要思想是在X、Y和,通过要求他们共享集体矩阵和张量因子分解模型中的低秩矩阵。我们还可以从多任务学习的角度来说明该模型,即我们可以通过多个任务的共性和共享知识,同时共同学习多个任务,而不是单独执行每个股票预测任务。在我们的工作中,多个任务通过股票相关性及其数量特征联系在一起。直觉表明,如果两支股票高度相关,一支股票上发生的事件可能对另一支股票产生类似的影响。接下来,我们将描述如何协同分解矩阵和张量。具体地说,给定一个非常稀疏的股票运动张量a,我们试图通过将其与股票数量特征矩阵XX和股票相关性矩阵Z协同分解来完成∈ RN×kis股票数量特征矩阵和Z∈ RN×Nis是股票相关性矩阵,其中N是股票数量,M是事件类型(类别)的数量,L是情绪极性的数量,即正负,以及股票ID实体的极性股票运动张量A0.20.7库存数量特征库存IDN×KN×M×L……………股票“定量”特征矩阵Χ0.40.10.70.2库存ID库存IDN×N股票相关性矩阵Z……………0.30.8重建分解A0= C×3U×5V×7WΧ = U×F0.8图3:耦合矩阵和张量分解K是量化特征的数量。

27
mingdashike22 在职认证  发表于 2022-6-2 20:29:43
张量A可以分解为asC×U×V×W,其中核心张量为C∈ RR×R×Rand三因子低秩矩阵为U∈ RN×R,V∈ RM×R,W∈ RL×R,分别表示股票、事件和情绪的低阶潜在因素。X可以分解为X=U×F,其中F∈ RR×Kis为定量特征的低秩因子矩阵。由于我们的模型应用于耦合矩阵和张量因式分解来补充张量,因此重建后获得的条目需要接近其实际值。为了实现这一目标,我们定义了以下objectivefunction,以最小化因子分解错误。L(U、V、W、C、F)=kA- C×U×V×W k+λkX- UF k+λtr(UTLZU)+λ(kUk+kV k+kW k+kCk+kF k)(2),其中kA- C×U×V×W kis控制传感器A、kX的分解误差- UF kis用于控制X的因式分解误差,tr(·)表示矩阵轨迹,kU k+kV k+kW k+kCk+kF kis是用于避免过度拟合的正则化惩罚。Lz=D-Z是股票相关图的拉普拉斯矩阵,其中D是一个对角线矩阵,对角线条目dii=Pizij。Andtr(UTLzU)可通过以下等式获得:。

28
kedemingshi 在职认证  发表于 2022-6-2 20:29:46
(3) ,其中相关性较高的两个股票SIA和SJ(即zijis large)的向量Ui和矩阵U之间的距离也应更近。Xi,jkui- ujkzij=Xi,juizijuTi-Xi,juizijuTj=Xuidiiuti-Xi,juizijuTj=tr(UT(D- Z) U)=tr(UTLzU)(3)目标函数对所有变量U、V、W、C、F不是联合凸的。因此,我们使用一种元素优化算法,通过梯度下降独立地迭代更新矩阵和张量中的每个元素【50,51】。每个变量的梯度推导如下:ui:L=(C×uTi:×vTj:×wTk:- aijk)C×vTj:×wTk:+λ(ui:F- xi:)FT+λ(LZU)i:+λui:vj:L=(C×uTi:×vTj:×wTk:- aijk)C×uTi:×wTk:+λvj:工作时间:L=(C×uTi:×vTj:×wTk:- aijk)C×uTi:×vTj:+λwk:CL=(C×uTi:×vTj:×wTk:- aijk)用户界面:o vj:o 工作时间:+λCFL=λuTi:(ui:F)- xi:)+λf学习过程的详细算法如算法1.6所示。实验6.1。数据收集和描述我们在2015年1月1日和12月31日期间,在中国A股市场数据和香港股市数据两个数据集上评估了我们提出的方法,算法1耦合矩阵和张量分解输入:张量A,矩阵X,Z,误差阈值ε输出:低秩矩阵U,V,W,F,核心张量C1:将η设置为梯度下降的步长,迭代时间2:初始化U∈ RN×R,V∈ RM×R,W∈ RL×R,F∈ RR×K,Z∈ RN×Nand核张量C∈ 小随机值的RR×R×R,t=03:dii=∑izij4:LZ=D- Z5:对于每个aijk6=0,do6:获取ui:L,vj:L,工作:L,氯,FL7:ut+1i:=uti:- ηuti:L8:vt+1j:=vtj:- ηvtj:L9:wt+1k:=wtk:- ηwtk:L10:Ct+1=Ct- ηCtL11:英尺+1=英尺- ηFtL12:结束时间13:while(Losst- Losst公司-1> ) do14:执行步骤5- 12迭代15:t=t+116:结束,17:返回U、V、W和F2015。

29
可人4 在职认证  发表于 2022-6-2 20:29:49
对于A股市场,我们从中国股票指数(CSI)100中选择了78只股票,并从网络媒体和社交媒体收集了相应的事件信息和情感极性。由于在此期间网络上的信息非常有限,其余22只股票未被纳入实验。就香港市场而言,由于香港市场的散户投资者远少于A股市场,社交网络中与香港股票相关的推特数量不如A股。因此,我们只选择了13只推特数量相对较多的热门股票进行实验。接下来,我们将详细介绍如何收集数据,具体如下:定量数据:这两个数据集的股票定量数据均来自中国广泛使用的金融信息服务提供商Wind。我们选择的指数是股票周转率、市盈率、市盈率和PCF比率,它们是股票交易和估值常用的指数,构成股票数量特征矩阵。此外,我们还收集收盘价和行业指数来计算股票的耦合相关性。网络新闻数据:我们分别从Wind收集了76445篇A股和7284篇港股新闻文章,包括标题和2015年的发布时间。每个物品都分配到相应的库存。这些网络新闻最初是由中国主要财经新闻网站Wind聚合而成的,如http://finance.sina.com.cn和http://www.hexun.com.These然后处理标题以提取事件,如第节所述。4.3. 该数据可在[52]上公开获取。社交媒体数据:对A股股票的情绪来自古坝。Guba是一个活跃的金融社交媒体,投资者可以在这里发布他们的投资,每只股票都有自己的讨论网站。从2015年1月1日到12月,我们总共收集了6163056条帖子。

30
mingdashike22 在职认证  发表于 2022-6-2 20:29:52
2015年3月31日,78只股票。每篇帖子的内容、用户ID、标题、评论和点击次数,以及13只港股的代码分别为0175、0388、0390、0400、0656、0700、1030、1766、19182318、2333、3333和3968。将提取发布时间。我们还公开了该数据集[53]。此外,2015年,我们从中国类似推特的投资者社交网络学秋(Xueqiu)上抓取了3191条关于13只港股的推特。由于在薛丘对港股的讨论多于在古坝,我们从薛丘而非古坝收集与港股相关的情绪信息。在实验中,我们使用前9个月的数据作为训练集,最后3个月的数据作为测试集。对于A股数据集,47.1%的样本呈现上升趋势,52.3%的样本呈现下降趋势,0.6%的样本保持不变。就香港股市数据而言,54.9%的样本呈上升趋势,42.3%呈下降趋势,2.8%保持不变。为了消除障碍并获得确定的价格变动趋势,我们将变动范围阈值设置为2%。特别是,当一只股票在一个交易日的价格变动率大于2%(或小于-2%)时,其价格变动方向被视为上涨(或下跌)。否则,该样本被视为几乎没有波动(或仍然存在),并被排除在我们的实验之外。因此,我们的预测任务可以被视为二元分类任务,并可以由二元分类器来处理。6.2.

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-11 19:54