楼主: 可人4
1387 41

[量化金融] 基于异构信息融合的股市预测改进 [推广有奖]

  • 0关注
  • 2粉丝

会员

学术权威

76%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
48.9243
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24465 点
帖子
4070
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
可人4 在职认证  发表于 2022-6-2 20:28:20 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Improving Stock Market Prediction via Heterogeneous Information Fusion》
---
作者:
Xi Zhang, Yunjia Zhang, Senzhang Wang, Yuntao Yao, Binxing Fang,
  Philip S. Yu
---
最新提交年份:
2018
---
英文摘要:
  Traditional stock market prediction approaches commonly utilize the historical price-related data of the stocks to forecast their future trends. As the Web information grows, recently some works try to explore financial news to improve the prediction. Effective indicators, e.g., the events related to the stocks and the people\'s sentiments towards the market and stocks, have been proved to play important roles in the stocks\' volatility, and are extracted to feed into the prediction models for improving the prediction accuracy. However, a major limitation of previous methods is that the indicators are obtained from only a single source whose reliability might be low, or from several data sources but their interactions and correlations among the multi-sourced data are largely ignored.   In this work, we extract the events from Web news and the users\' sentiments from social media, and investigate their joint impacts on the stock price movements via a coupled matrix and tensor factorization framework. Specifically, a tensor is firstly constructed to fuse heterogeneous data and capture the intrinsic relations among the events and the investors\' sentiments. Due to the sparsity of the tensor, two auxiliary matrices, the stock quantitative feature matrix and the stock correlation matrix, are constructed and incorporated to assist the tensor decomposition. The intuition behind is that stocks that are highly correlated with each other tend to be affected by the same event. Thus, instead of conducting each stock prediction task separately and independently, we predict multiple correlated stocks simultaneously through their commonalities, which are enabled via sharing the collaboratively factorized low rank matrices between matrices and the tensor. Evaluations on the China A-share stock data and the HK stock data in the year 2015 demonstrate the effectiveness of the proposed model.
---
中文摘要:
传统的股市预测方法通常利用股票的历史价格相关数据来预测其未来趋势。随着网络信息的增长,最近一些作品试图探索财经新闻以提高预测能力。事实证明,与股票相关的事件以及人们对市场和股票的情绪等有效指标在股票的波动性中起着重要作用,并将其提取到预测模型中,以提高预测精度。然而,以往方法的一个主要限制是,指标仅从可靠性可能较低的单一来源获得,或从多个数据来源获得,但它们在多源数据之间的相互作用和相关性在很大程度上被忽略。在这项工作中,我们从网络新闻中提取事件,从社交媒体中提取用户的情绪,并通过耦合矩阵和张量因子分解框架研究它们对股价运动的共同影响。具体来说,首先构造一个张量来融合异构数据,并捕捉事件与投资者情绪之间的内在关系。由于张量的稀疏性,构造并合并了两个辅助矩阵,即股票数量特征矩阵和股票相关性矩阵,以辅助张量分解。背后的直觉是,相互高度相关的股票往往会受到同一事件的影响。因此,我们没有单独独立地执行每个股票预测任务,而是通过它们的共性同时预测多个相关股票,这些共性是通过在矩阵和张量之间共享协作分解的低秩矩阵实现的。对2015年中国A股数据和香港股市数据的评估证明了该模型的有效性。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Social and Information Networks        社会和信息网络
分类描述:Covers the design, analysis, and modeling of social and information networks, including their applications for on-line information access, communication, and interaction, and their roles as datasets in the exploration of questions in these and other domains, including connections to the social and biological sciences. Analysis and modeling of such networks includes topics in ACM Subject classes F.2, G.2, G.3, H.2, and I.2; applications in computing include topics in H.3, H.4, and H.5; and applications at the interface of computing and other disciplines include topics in J.1--J.7. Papers on computer communication systems and network protocols (e.g. TCP/IP) are generally a closer fit to the Networking and Internet Architecture (cs.NI) category.
涵盖社会和信息网络的设计、分析和建模,包括它们在联机信息访问、通信和交互方面的应用,以及它们作为数据集在这些领域和其他领域的问题探索中的作用,包括与社会和生物科学的联系。这类网络的分析和建模包括ACM学科类F.2、G.2、G.3、H.2和I.2的主题;计算应用包括H.3、H.4和H.5中的主题;计算和其他学科接口的应用程序包括J.1-J.7中的主题。关于计算机通信系统和网络协议(例如TCP/IP)的论文通常更适合网络和因特网体系结构(CS.NI)类别。
--
一级分类:Physics        物理学
二级分类:Physics and Society        物理学与社会
分类描述:Structure, dynamics and collective behavior of societies and groups (human or otherwise). Quantitative analysis of social networks and other complex networks. Physics and engineering of infrastructure and systems of broad societal impact (e.g., energy grids, transportation networks).
社会和团体(人类或其他)的结构、动态和集体行为。社会网络和其他复杂网络的定量分析。具有广泛社会影响的基础设施和系统(如能源网、运输网络)的物理和工程。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
--> Improving_Stock_Market_Prediction_via_Heterogeneous_Information_Fusion.pdf (829.88 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:股市预测 信息融合 Applications Quantitative SIMULTANEOUS

沙发
kedemingshi 在职认证  发表于 2022-6-2 20:28:25
通过异质信息融合提高股市预测能力,*, Yunjia Zhanga,Senzhang Wangb,Yuntao Yaoa,Binxing Fanga,e,Philip S.Yuc,教育部达基可信分布式计算与服务实验室,北京邮电大学,北京100876,中国计算机科学与技术学院,南京航空航天大学,南京210016,中国计算机科学系,伊利诺伊大学芝加哥分校,伊利诺伊州60607,美国数据科学研究所,清华大学,北京100084,中国电子科技大学电子与信息工程研究所,广东东莞523808,中国摘要传统的股市预测方法通常利用股票的历史价格相关数据来预测其未来趋势。随着网络信息的增长,最近一些作品试图探索金融新闻以改进预测。有效指标,例如与股票相关的事件以及人们对市场和股票的情绪,已被证明在股票的波动性中起着重要作用,并被提取出来输入预测模型,以提高预测精度。然而,对以前方法的一个主要模仿是,指标仅从可靠性可能较低的单一数据源获得,或者从多个数据源获得,但多源数据之间的相互作用和相关性被忽略得很厉害。在这项工作中,我们从网络新闻和社交媒体用户的情绪中提取事件,并通过耦合矩阵和张量因子分解框架研究它们对股价运动的共同影响。

藤椅
mingdashike22 在职认证  发表于 2022-6-2 20:28:28
具体而言,传感器的构建旨在融合异构数据并捕获*相应的authorEmail地址:zhangx@bupt.edu.cn(Xi张),2011213120@bupt.edu.cn(云家章),szwang@nuaa.edu.cn(王森章),yaoyuntao@bupt.edu.cn(姚云涛),fangbx@bupt.edu.cn(方斌星),psyu@uic.edu(Philip S.Yu)2018年1月3日提交给《乳胶模板杂志》的预印本事件与投资者情绪之间的关系。由于张量的稀疏性,构造并合并了两个辅助矩阵,即股票数量特征矩阵和股票相关性矩阵,以辅助传感器分解。背后的直觉是,相互高度相关的股票往往会受到同一事件的影响。因此,我们不单独进行每个股票预测任务,而是通过它们的共性同时预测多个相关股票,这可以通过在矩阵和张量之间共享协作分解的低秩矩阵来实现。对2015年中国A股股票数据和香港股票数据的评估证明了所提议模型的有效性。关键词:社交媒体、股票相关性、张量因子分解、股票预测2010 MSC:00-01、99-001。股票市场预测已经引起学术界和企业界的广泛关注。由于其复杂性,股市的预测程度仍然是一个悬而未决的问题。关于这一问题的早期文献基于有效市场假说(EMH)[1],该假说指出,股票市场价格充分反映了所有可用信息。通常,股票相关信息大致可分为定量数据和财务状况的定性描述。

板凳
nandehutu2022 在职认证  发表于 2022-6-2 20:28:32
定量分析根据公开的定量数据(如股票价格、标准收入、资产负债表等)做出投资决策。另一方面,定性分析着眼于业务本身,并试图根据定性数据(如公司的管理、产品和战略)做出决策。这两种类型的分析对于制定成功的投资战略都很重要。因此,获得必要和全面的信息是合理的,包括定量数字和定性描述,以预测公司股价的未来趋势。Quantitativedata通常组织良好,可通过彭博社(Bloomberg)和Wind等金融数据提供商公开获取,并已成功应用于技术分析和定量交易。然而,定性信息通常存在于各种数据源(包括网络媒体和社交媒体)的文本描述中。随着Web 2.0的繁荣,越来越多的投资者参与到Web活动中,实时获取和共享股票相关信息。同时,专家和知情人士在股票上发表的意见可以影响其他人的决定,因为这种影响通过互联网进行了快速传播。影响是双重的。一方面,网络上的事件信息和用户情绪会在很大程度上影响股价。例如,白宫爆炸的谣言导致股市暴跌。另一方面,股价的剧烈波动可能导致相关信息的产生和传播(例如,当局的观点),进而影响公众对未来投资策略的看法。

报纸
mingdashike22 在职认证  发表于 2022-6-2 20:28:35
因此,它为研究人员提供了前所未有的机会来利用网络信息来促进股票分析。考虑到股票价格与网络上与股票相关的事件信息之间的高度相关性,事件驱动股票预测技术可以从网络新闻中提取事件来指导股票投资[4、5、6]。然而,它们的预测能力受到以下两个挑战的限制。首先,从网络上收集的股票相关事件信息非常稀少。虽然网络新闻越来越多,但可以从网络新闻中提取的事件数量仍然有限。此外,事件通常存在于难以提取的非结构化文本中。此外,不同的网站可以用不同的方式描述同一事件,因此容易被识别为不同的事件,导致稀疏性增加。因此,具有不同表达的类似事件应合并为一个categoryhttp://www.wind.com.cn/to减少稀疏性。其次,缺乏一种有效的方法来分析事件并定量衡量其对股价的影响。即使我们成功地提取了股票上的事件,仍然很难确定该事件是否会对股票价值产生积极或消极的影响。例如,对于event收购,微软收购LinkedIn导致微软股价下跌。相比之下,英特尔收购Altera导致英特尔股价上涨。因此,仅仅依靠事件进行预测是不够的。除了事件之外,情绪在决策中也起着重要作用。之前的行为经济学研究表明,财务决策在很大程度上受情绪和情绪的驱动。例如,社会上乐观或悲观的总体水平可能会影响投资者的决策[7、8]。

地板
能者818 在职认证  发表于 2022-6-2 20:28:38
由于自然语言处理(NLP)技术的最新进展,情绪驱动的股票预测技术也被提出,从社交媒体中提取公众情绪的指标[9、10、11],其中股票的积极情绪可能表示价格上涨趋势,而消极情绪更可能表示下跌趋势。然而,仅仅依靠这些感觉也不足以进行预测。例如,在节假日,人们的情绪往往是积极的,但它可能不会真正反映他们的投资意见。为了应对上述挑战,我们建议将从网络新闻中提取的与股票相关的事件与用户对社会媒体的情绪结合起来。为此,需要有效的信息集成技术来共同建模其影响。然而,要集成来自多个异构且相互关联的源的信息非常困难。具体而言,信息可能具有不同的时间尺度(如小时、天、月)和不同的结构(如新闻事件、社交媒体情感)。在以前的研究中,一种常见的策略是将来自多个源的特征连接到一个复合特征向量中。然而,这种线性预测模型假设来自不同数据源的这些特征相互独立。事实上,除了线性效应外,还有来自多个源之间相互作用的耦合效应。例如,一个特定的事件(例如,违约)通常会导致不良情绪(例如,负面情绪)。此外,即使在单个数据源中,不同功能之间也可能存在交互。例如,在定量数据中,两支股票及其对应行业的价格变动可以高度相关。

7
nandehutu2022 在职认证  发表于 2022-6-2 20:28:41
很明显,与同一行业相关的股票往往比不相关行业的股票更频繁地共同进化。虽然已经开发了一个基于张量的计算框架来模拟股票预测不同信息源的联合影响[12,13],但该框架中的每个股票预测都被建模为一个单独的任务,因此可以独立学习,而不考虑股票之间的相关性。在本文中,我们首次提出了一种新的基于张量的计算框架,该框架可以通过融合各种信息源有效地预测股价走势。为此,我们广泛收集与股票相关的信息,这些信息大致可分为三类,即来自财务数据提供商的定量信息(如历史股价),来自网络媒体的特定事件信息,以及来自社交媒体的情绪信息。具体而言,我们首先收集和处理金融网络新闻,以提取股票相关事件,并将类似事件合并为一个类别。事件类型数量较少的合并事件可以在一定程度上缓解数据稀疏问题。然后,我们处理一个名为Guba的流行中国金融讨论板上与股票相关的帖子,并使用情感分类技术从用户帖子和讨论中提取情感指标。接下来,我们提出了一种耦合矩阵和张量因子分解方案,以整合定量股票价格数据、情绪特定数据以及事件特定数据。利用协同分解的低秩矩阵,我们可以通过补全稀疏张量中的缺失值来有效预测股票运动。

8
kedemingshi 在职认证  发表于 2022-6-2 20:28:45
主要创新在于,与以往基于张量的研究不同,以往的研究在depenhttp://www.guba.com.cndently该方案考虑了股票之间的相关性,提供了一个强大的工具,通过隐式共享知识和显式边信息同时共同学习所有任务,从而获得更好的预测性能。本文的主要贡献可以总结如下:1)通过整合包括网络新闻和社交媒体帖子在内的多种信息源,我们提出了一个股票价格变动预测框架。与传统方法相比,该框架考虑了事件和公众舆论对投资决策的共同影响。2) 为了缓解数据稀疏性问题并利用股票之间的共性,我们采用各种方法探索股票之间的相关性。我们不考虑股票相关特征的简单线性组合,而是考虑特征之间的耦合效应来捕捉它们的相关性。3) 我们提出了一种耦合矩阵和张量分解方案,以支持异构信息集成和多任务学习。然后,将分解后的低秩因子矩阵相乘,完成股票价格变动预测。4) 我们的模型在两个数据集,中国A股市场数据和香港股市数据上进行了评估,结果表明我们的建议可以分别达到62.5%和61.7%的准确率。与最先进的基线相比,我们的方法不仅在性能上显示出优越性,而且需要调整的参数更少。本文的其余部分组织如下。第二节介绍了相关工作。我们在第3节中给出了初步结果。第4节描述了系统框架。我们在第5节阐述了耦合矩阵和张量分解方案。

9
mingdashike22 在职认证  发表于 2022-6-2 20:28:48
在第6节中,对真实数据的评估显示了拟议方法的效果。最后,我们在第7.2节中总结了本文。相关研究各种研究发现,金融新闻可以显著影响股票价格[14、15、16、17、18、19]。根据【20】,总结了金融领域使用的几种下一步采矿方法。结构化事件被提取为元组,包括[4]中新闻文档中的代理、谓词和对象。提出了一种基于深度学习的方法来学习eventrepresentations,以获取基于wordembeddings的句法和语义信息[5]。最近,知识图中的外部信息被整合到学习过程中,以生成事件表示[6]。Adeep神经模型被提出用于衡量金融新闻的信息内容,旨在了解事件的经济价值[21]。对股价有短期或长期影响的新闻事件的时间特性在【22】中进行了建模。然而,这些研究只考虑了新闻事件的影响,而忽视了投资者的情绪也可能导致股价波动的事实。还有一系列研究试图将情绪分析应用于信息源,以分析情绪对股市波动的影响。一个主要的数据来源是新闻文章【10、11、23、24、25】。[11]中介绍了一种基于公司新闻文章的股票情绪分析的混合方法。在文献[26]中,文本数据使用词袋方法表示为特征向量,数据被组织为时间序列模型的输入,表明使用市场情绪可以提高预测精度。【27】研究了作者语调在金融新闻文章中的作用,这表明了一种逆向投资方式,即看到好消息,卖出;看到坏消息,购买。

10
nandehutu2022 在职认证  发表于 2022-6-2 20:28:51
一天中网络信息的时间序列数据是通过对所有文章中的词语的情感值求和来构建的,支持向量回归(SVR)用于构建从网络信息时间序列到价格值的映射【28】。[29]对新闻情绪进行了测量,并研究了网络新闻和社交媒体对股市的综合影响。另一个广泛使用的提取情感的数据源是社交媒体[10,30,31]。事实证明,从推特中提取的公众情绪会对股市波动产生影响,情绪跟踪工具,如PinionFinder和谷歌情绪状态档案,被用来分析每日推特的文本内容【9】。文献[30]提出了一种测量每天集体希望和恐惧的方法,并分析了这些指数与股市指标之间的相关性,通过这种方法,每条推特上都标有恐惧、抱歉、希望等情绪词。结果表明,情绪推文的比率与道琼斯指数、纳斯达克指数和标准普尔500指数呈显著负相关。提出了一种基于主题的情绪时间序列方法来预测市场。这项工作被扩展到从社交媒体环境中进一步挖掘股票之间的社会关系。利用Twitter基于共生关系构建股票网络,并采用labeledtopic模型对Twitter和网络结构进行联合建模,分别为每个节点和每个边缘分配一个主题。然后,使用基于词典的情绪分析方法计算每个节点和边缘主题的情绪得分。最后,使用情绪时间序列和价格时间序列进行预测【32】。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-22 06:11