楼主: 能者818
1366 50

[量化金融] 用于股票短期波动预测的多模态深度学习 [推广有奖]

  • 0关注
  • 6粉丝

会员

学术权威

79%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
35.2098
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24952 点
帖子
4198
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Multimodal deep learning for short-term stock volatility prediction》
---
作者:
Marcelo Sardelich and Suresh Manandhar
---
最新提交年份:
2018
---
英文摘要:
  Stock market volatility forecasting is a task relevant to assessing market risk. We investigate the interaction between news and prices for the one-day-ahead volatility prediction using state-of-the-art deep learning approaches. The proposed models are trained either end-to-end or using sentence encoders transfered from other tasks. We evaluate a broad range of stock market sectors, namely Consumer Staples, Energy, Utilities, Heathcare, and Financials. Our experimental results show that adding news improves the volatility forecasting as compared to the mainstream models that rely only on price data. In particular, our model outperforms the widely-recognized GARCH(1,1) model for all sectors in terms of coefficient of determination $R^2$, $MSE$ and $MAE$, achieving the best performance when training from both news and price data.
---
中文摘要:
股票市场波动性预测是一项与评估市场风险相关的任务。我们使用最先进的深度学习方法研究了新闻和价格之间的相互作用,以进行一天前的波动率预测。所提出的模型要么端到端地训练,要么使用从其他任务转移过来的句子编码器。我们评估了广泛的股票市场部门,即消费品、能源、公用事业、医疗保健和金融。我们的实验结果表明,与只依赖价格数据的主流模型相比,添加新闻可以改善波动率预测。特别是,我们的模型在决定系数$R ^ 2$、$MSE$和$MAE$方面优于所有部门公认的GARCH(1,1)模型,在从新闻和价格数据进行培训时取得了最佳性能。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Computer Science        计算机科学
二级分类:Computation and Language        计算与语言
分类描述:Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.
涵盖自然语言处理。大致包括ACM科目I.2.7类的材料。请注意,人工语言(编程语言、逻辑学、形式系统)的工作,如果没有明确地解决广义的自然语言问题(自然语言处理、计算语言学、语音、文本检索等),就不适合这个领域。
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Risk Management        风险管理
分类描述:Measurement and management of financial risks in trading, banking, insurance, corporate and other applications
衡量和管理贸易、银行、保险、企业和其他应用中的金融风险
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
--> Multimodal_deep_learning_for_short-term_stock_volatility_prediction.pdf (2.19 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:深度学习 波动预测 多模态 Applications Quantitative

沙发
大多数88 在职认证  发表于 2022-6-11 08:10:20 |只看作者 |坛友微信交流群
短期股票波动预测的多模式深度学习Marcelo Sardelicha,*, Suresh ManandharaaDepartment of Computer Science Deramore Lane,University of York,Heslington,Yok,YO10 5GH,UK摘要股票市场波动性预测是一项与评估市场风险相关的任务。我们使用最先进的深度学习方法,研究了一天一天的波动率预测中新闻和价格之间的相互作用。所提出的模型要么端到端地训练,要么使用从其他任务转移过来的句子编码器进行训练。我们评估了广泛的股票市场部门,包括消费主食、能源、公用事业、医疗保健和金融。我们的实验结果表明,与只依赖价格数据的主流模型相比,添加新闻可以改善波动率预测。特别是,我们的模型在决定系数R、MSE和M AE方面优于所有部门公认的GARCH(1,1)模型,在从新闻和价格数据进行培训时取得了最佳性能。关键词:深度学习、序列学习、迁移学习、财务预测、波动预测、文本分析、自然语言预处理PACS:05.10-a、 05.40-a2010 MSC:62-0762H991。引言自然语言处理(NLP)越来越受到金融界的关注。这一趋势至少可以用三个主要因素来解释。第一个因素是指商业视角。这是一种利用其他数据来源获得竞争优势并超越历史股价的经济学,因此,通过自动分析市场新闻进行交易。第二个因素是在几乎实时收集、存储和查询大量用户生成数据的技术方面取得的重大进步。

使用道具

藤椅
nandehutu2022 在职认证  发表于 2022-6-11 08:10:23 |只看作者 |坛友微信交流群
第三个因素是指NLP社区在理解非结构化文本方面取得的进展。*相应的authorEmail地址:marcelo。sardelich@york.ac.uk(马塞洛·萨德里奇),suresh@cs.york.ac.uk(Suresh Manandhar)2018年12月31日提交给神经计算的预印本在过去几十年中,使用NLP进行财务预测的研究数量呈指数增长。根据文献[1],直到2008年,每年发表的同时提及“股市”和“文本挖掘”或“情绪分析”关键词的研究文章不到五篇。2012年,这一数字增加到每年略多于10篇文章。2016年的最新数据表明,这一数字已增至每年60篇。使用NLP从文本中机械地获取情感的能力有助于理解金融经济学的矛盾理论。历史上,对于市场参与者之间的分歧是否会导致更多交易,有两种不同的观点。“非交易定理”【2】指出,假设所有市场参与者都对市场事件有共同的认识,参与者之间的分歧程度不会增加交易数量,但只会导致市场报价的修改。相反,在[3]中提出的理论框架主张市场参与者之间的分歧会增加交易量。使用来自Yahoo和RagingBull的文本数据。为了衡量交易者之间的意见分散程度(积极或消极),在[4]中显示,用户信息之间的分歧有助于预测后续交易量和波动性。使用推特帖子,在[5]中发现了分歧和交易量增加之间的类似关系。此外,文本分析还补充了股票市场中长期动量/反转的理论[6]。

使用道具

板凳
nandehutu2022 在职认证  发表于 2022-6-11 08:10:27 |只看作者 |坛友微信交流群
关于股票动量/反转的统一Hong和Steinmodel【7】提出,投资者对消息反应不足,导致价格漂移缓慢,对没有消息伴随的价格冲击反应过度,从而导致反转。[8,9]使用金融媒体标题和[10]使用消费者信心指数对价格和新闻之间的理论预测行为进行了系统估计和支持由会议委员会出版【11】。类似地,[12]使用哈佛IV-4情感词典统计《华尔街日报》中积极和消极词汇的出现情况,表明消极情感是价格回报和交易量的良好预测因素。准确的价格回报和波动预测模型在金融领域同样重要。波动性衡量资产在给定时间段内预期波动的幅度,并与价格回报分布的第二个重要因素相关。一般而言,预测价格回报与投机性持仓相关。另一方面,波动率衡量这些头寸的风险。金融机构Hong和Stein的渐进式信息差异模型每天都会考虑两种类型的经济主体,即“新闻观察者”和“动量交易者”。该模型考虑了三个假设:1)“新闻观察者”了解部分公共信息并私下调整其模型,这些模型仅基于宏观经济和公司特定预测。2) “动量交易者”只根据过去的价格表现进行交易。3) 由于每个代理都有不同的时间框架来调整他们的模型,因此私人而非公共信息的使用逐渐不同。这些关于市场代理人的假设足以模拟新趋势与长期趋势或短期反转之间的关系。需要评估其投资组合的短期风险。

使用道具

报纸
nandehutu2022 在职认证  发表于 2022-6-11 08:10:30 |只看作者 |坛友微信交流群
衡量风险在许多方面都至关重要。银行监管机构要求的监管资本披露势在必行。此外,根据市场情况动态调整头寸规模,从而将风险保持在合理水平内,也是很有用的。尽管从金融市场应用的角度预测短期波动率至关重要,但当前NLP对波动率预测的研究大多集中在非常长期的波动率预测上(见[13,14,15,16,17])。这些作品主要是建立在单词袋表示法的扩展上,其主要缺点是无法捕捉词序。然而,财务预测需要能够捕捉依赖于词序的语义。例如,“高通公司起诉高通公司违约”和“苹果公司起诉高通公司违约”这两个标题引发了对每只股票和市场综合指数的不同回应,但它们的表述方式是相同的。此外,这些工作使用预先训练的情绪分析模型的特征来训练财务预测模型。此过程的一个关键限制是,它需要一个LabelledEntity数据集。此外,错误传播不是端到端的。在这项工作中,我们通过以下方式填补了波动率预测研究的空白:1。为了从长期波动预测转向短期每日波动预测,我们引入了路透社金融新闻语料库。我们在单个股票层面上汇编了该语料库,包括5个不同行业50只股票的新闻标题(标题),共计146783个样本(2007-2017年)。我们还从雅虎财经网站收集了50只股票的每日股价。2、我们提出了一个端到端的多模式模型,该模型联合学习dailystock price和公司新闻。3.

使用道具

地板
nandehutu2022 在职认证  发表于 2022-6-11 08:10:33 |只看作者 |坛友微信交流群
我们研究文本模式对于短期波动率预测问题是互补的还是冗余的。结果表明,textualmode具有互补性,提高了预测精度。4、通过比较在两个不同的TNLP任务中学习到的表述与波动率预测的具体问题的可转移性,我们有助于在[18、19、20]中实现通用句子表述。5、我们提出了一种层次化的新闻相关性注意机制,可以有效地从每天发布的大量新闻中选择最相关的标题新闻。通常,这种风险是下一个交易日的条件波动。上述工作的长期预测特征可以通过以下事实来解释,即10-K报告仅每年发布一次。2、相关工作【13】中之前的工作纳入了“表10-K”的部分,以预测报告发布后十二个月的波动率。他们在稀疏表示(单词包)的基础上训练支持向量回归模型,以承受标准术语权重(例如术语频率)。这项工作在[14、15、16、17]中得到了扩展,采用了Loughran-McDonald情感词表[21],其中包含三个列表,其中单词按其情感进行分组(积极、消极和中性)。在所有这些作品中,文本表征采用以下步骤进行设计:1)对于每个情感组,通过使用Word2Vecword嵌入为每个单词检索20个最相似的单词来扩展列表[22]。2) 最后,每个10-K文档使用扩展的单词列表表示。使用信息检索(IR)方法,如术语频率(tf)和术语频率与倒排文档频率(t fi df),确定这种稀疏表示中每个单词的权重。

使用道具

7
kedemingshi 在职认证  发表于 2022-6-11 08:10:35 |只看作者 |坛友微信交流群
特别是,[17]表明,使用增强红外方法和使用主成分分析(PCA)将每个稀疏特征投影到稠密空间可以改善结果。上述工作([14、15、16、17])针对长期波动性预测(一年或季度[17])。特别是,[17]和[16]使用marketdata(price)功能以及10-K报告的文本表示。这些采用多模式学习的现有工作【23】基于最新融合方法。例如,堆叠集合以考虑价格和文本预测[17]。相反,我们的端到端训练模型可以学习价格和文本的联合分布。预测价格方向而非波动性是[24]的重点。他们从推特帖子中提取情感词,构建情绪状态的时间序列(POM)。他们的结果表明,集体穆迪准确地预测了琼斯股指下跌的方向(准确率为86.7%)。在[25]手工制作的文本表示中,包括术语计数,名词短语标记和提取的命名实体被用于使用支持向量机(SVM)预测股市方向。文献[26]提出了潜在DirichletAllocation(LDA)的扩展,以学习主题和情感的联合潜在空间。我们的深度学习模型与专注于方向价格预测的工作非常相似【27,28】。在[27]中,使用斯坦福OpenIE处理标题新闻,生成三元组,这些三元组被输入神经张量网络,以创建最终的标题表示。在[28]中,字符级嵌入是以无监督的方式预先训练的。字符嵌入用于美国证券交易委员会(SEC)强制上市公司每年/每季度编制“10-K表”报告。

使用道具

8
何人来此 在职认证  发表于 2022-6-11 08:10:39 |只看作者 |坛友微信交流群
这些表格提供了公司业务和财务状况的概览。可以找到一个10-K表单示例。在此,后期融合设置、文本和价格特征独立训练,并在后期使用元模型来区分如何加权每个模式的贡献。输入序列模型以学习标题表示。特别是,这两部作品都对某一天的所有标题进行了平均,而不是试图对最相关的标题进行加权。在这项工作中,我们提出了一种神经张力机制来捕捉新闻相关性,并提供实验证据,证明它是端到端学习过程的关键组成部分。我们的注意力从[27,28]扩展了之前的深度学习方法。尽管端到端的深度学习模型已经达到了最先进的性能,但大量的参数使其易于过度匹配。此外,端到端模型是从头开始训练的,需要大量的数据集和计算资源。迁移学习(TL)通过将从不同且潜在弱相关的源域学习到的表示适应新的目标域来缓解这个问题。例如,在计算机视觉任务中,从ImageNet【29】数据集(源域)中学习到的卷积特征已成功地转移到多个域目标任务中,这些任务具有更小的数据集,如对象分类和场景认知【30】。在这项工作中,我们在实验中考虑TL有两个主要原因。首先,它解决了我们提出的数据集是否适合端到端训练的问题,因为传输表示的性能可以与端到端学习进行比较。第二,哪些数据集能更好地转移到预测问题上仍有待研究。

使用道具

9
kedemingshi 在职认证  发表于 2022-6-11 08:10:42 |只看作者 |坛友微信交流群
最近,NLP社区专注于句子的通用表示[18,20],即承载完整句子含义的密集表示。[18] 发现将斯坦福自然语言推理(SNLI)[31]数据集上训练的句子表征转换为多个NLP任务(如情感分析、问题类型和观点极性)可以实现最先进的句子表征。在【18】之后,在这项工作中,我们研究了SNLI和Reuters RCV1【32】数据集将学习转移到挥发性预测任务的适用性。据我们所知,我们在工作中提出的标题层次注意机制尚未应用于波动预测;还没有研究过将句子编码器从源数据集转移到目标预测问题(转移学习)的能力。3、我们的datasetOur语料库涵盖了广泛的新闻,包括关于盈利日期的新闻,并补充了10-K报告的内容。举例来说,标题“沃尔玛警告称,强劲的美国将导致150亿美元的销售额下降”和“宝洁公司提高FY有机销售额增长预测,在销售节拍后”从管理的角度描述了公司的财务状况和业绩,这些也是10000美元的第7节中的典型内容。该节被称为“管理层对财务状况和运营结果的讨论和分析”(MD&A),这是管理层的前瞻性部分。报告。在本节中,我们描述了在股票层面上编制财务新闻数据集所涉及的步骤,该数据集包括广泛的业务部门。3.1. 部门和股票编制语料库的第一步是选择成分股票。我们的目标是考虑广泛领域的股票,以多样化的金融领域为目标。

使用道具

10
nandehutu2022 在职认证  发表于 2022-6-11 08:10:45 |只看作者 |坛友微信交流群
我们发现,交易所交易基金(ETF)提供了一种机械的方式来聚集特定行业/部门中最相关的股票。ETF是一种拥有资产(如股票或货币)的基金,但与共同基金不同,ETF是在证券交易所交易的。这些ETF流动性极强,跟踪不同的投资主题。我们决定在我们的工作中使用SPDR SetcorFunds成分股票,因为该公司是美国最大的行业基金提供商。我们在分析中包括了按金融交易量排名前五(五)的部门ETF(截至2018年1月)。在交易量最大的行业中,我们还筛选出了彼此相似的行业。例如,主要消费品和非必需消费品部门都是父消费者类别的一部分。对于前5大板块中的每一个,我们都选择了前10大持股,这被认为是最相关的股票。表1详细介绍了我们的数据集部门及其各自的股票。3.2. 股票特定数据我们假设单个股票新闻在标题中明确提及股票名称或其任何表面形式。举例来说,为了收集股票代码PG、宝洁公司名称的所有新闻,我们搜索所有标题中的任何一个词:宝洁或宝洁或宝洁。在本例中,第一个词只是公司名称,其余的词是公司表面形式。我们从DBpedia知识库(KB)中提取的曲面形式种子开始,自动导出每个股票的曲面形式。然后应用以下程序:o将每个公司名称与KB实体唯一标识符联系起来。o检索wikiPageRedirects属性的所有值。属性显示指向同一实体/公司名称的不同页面的名称。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-10-5 20:06