楼主: nandehutu2022
1543 14

[量化金融] 基于BERT的金融情绪指数和基于LSTM的股票收益率 [推广有奖]

  • 0关注
  • 5粉丝

会员

学术权威

74%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
69.3721
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24246 点
帖子
4004
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-20

楼主
nandehutu2022 在职认证  发表于 2022-6-24 05:30:14 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《BERT-based Financial Sentiment Index and LSTM-based Stock Return
  Predictability》
---
作者:
Joshua Zoen Git Hiew, Xin Huang, Hao Mou, Duan Li, Qi Wu, Yabo Xu
---
最新提交年份:
2019
---
英文摘要:
  Traditional sentiment construction in finance relies heavily on the dictionary-based approach, with a few exceptions using simple machine learning techniques such as Naive Bayes classifier. While the current literature has not yet invoked the rapid advancement in the natural language processing, we construct in this research a textual-based sentiment index using a novel model BERT recently developed by Google, especially for three actively trading individual stocks in Hong Kong market with hot discussion on Weibo.com. On the one hand, we demonstrate a significant enhancement of applying BERT in sentiment analysis when compared with existing models. On the other hand, by combining with the other two existing methods commonly used on building the sentiment index in the financial literature, i.e., option-implied and market-implied approaches, we propose a more general and comprehensive framework for financial sentiment analysis, and further provide convincing outcomes for the predictability of individual stock return for the above three stocks using LSTM (with a feature of a nonlinear mapping), in contrast to the dominating econometric methods in sentiment influence analysis that are all of a nature of linear regression.
---
中文摘要:
金融领域的传统情感构建在很大程度上依赖于基于词典的方法,少数例外情况是使用简单的机器学习技术,如朴素贝叶斯分类器。虽然目前的文献还没有提到自然语言处理的快速发展,但在本研究中,我们使用谷歌最近开发的新模型BERT构建了一个基于文本的情绪指数,特别是针对三只在香港市场上活跃交易的个股,在微博上进行了热烈讨论。通用域名格式。一方面,与现有模型相比,我们证明了在情感分析中应用BERT的显著增强。另一方面,通过结合金融文献中构建情绪指数常用的其他两种现有方法,即期权隐含法和市场隐含法,我们提出了一个更通用、更全面的金融情绪分析框架,并进一步使用LSTM(具有非线性映射特征)为上述三支股票的个别股票回报的可预测性提供令人信服的结果,而情绪影响分析中的主要计量经济学方法都具有线性回归的性质。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Quantitative Finance        数量金融学
二级分类:General Finance        一般财务
分类描述:Development of general quantitative methodologies with applications in finance
通用定量方法的发展及其在金融中的应用
--

---
PDF下载:
--> BERT-based_Financial_Sentiment_Index_and_LSTM-based_Stock_Return_Predictability.pdf (170.49 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:股票收益率 情绪指数 股票收益 收益率 STM

沙发
kedemingshi 在职认证  发表于 2022-6-24 05:30:19
基于BERT的金融情绪指数和基于LSTM的股票回报预测Joshua Zoen Git香港HiewCity大学Kongjoshuahzg@yahoo.com.hkXin黄光裕香港中文大学Konghuangxin@se.cuhk.edu.hkHao MouDataStorymouhao@datastory.com.cnDuan锂*香港城市大学Kongdli226@cityu.edu.hkQi香港五城大学Kongqiwu55@cityu.edu.hkYabo XuDataStoryarber@datastory.com.cnAbstractTraditional金融中的情感构建在很大程度上依赖于基于词典的方法,少数例外情况是使用简单的机器学习技术,如朴素贝叶斯分类器。虽然目前的文献还没有提到自然语言处理的快速发展,但我们在本研究中使用谷歌最近开发的g a n ovel模型BERT构建了一个基于文本的情绪指数,特别是针对在香港市场上活跃的个人股票,以及微博上的热门讨论。通用域名格式。一方面,与现有模型相比,我们要求在情感分析中应用伯特显著增强。另一方面,通过结合金融文献中构建情绪指数常用的其他两种现有方法,即期权隐含法和市场隐含法,我们提出了一个通用和全面的金融情绪分析框架,并进一步使用LSTM(具有非线性映射特征)为上述三只股票的个别股票回报的可预测性提供令人信服的结果,而情绪影响分析中的主要计量经济学方法都具有线性回归的性质。1简介人们普遍认为,投资者情绪是金融市场运动背后的重要驱动因素之一。

藤椅
nandehutu2022 在职认证  发表于 2022-6-24 05:30:22
虽然经典金融理论认为投资者是理性的,但广泛的研究已经揭示了他们的非理性行为的显著影响,如乐观或悲观情绪(参见Lee et al.(1991)和Baker and Wurgler(2006))。然而,不同的研究作品采用不同的情感测量。向投资者发送调查问卷是收集公众对市场环境和市场趋势的意见的一种非常传统的方式。这种方法的明显缺点是数据采集频率较低,因为调查通常每周、每月甚至每季度进行一次。例如,Brown and Cliff(2005年)中的情绪预测是基于美国个人投资者协会(American Association of Individual Investors)每周的调查数据。因此,提出了me定量方法。例如,两者*通讯作者。预印本。正在审查中。Baker和Wurgler(2006)以及Chong等人(20 14)将主成分分析(PCA)应用于选定市场因素的一系列数据集,以提取市场隐含情绪指数,而Lehan(2008)则从期权隐含信息中衡量投资者情绪。与直接处理来自互联网的情感文本的方法相比,这些方法可以找到一种间接测量情感的代理,如推特(见Bollen et al.,2011)、新闻或分析文章(见Chen et al.,2018)。最近,Kearney和Liu(2014)提供了一项全面的调查,总结了文本情感的不同信息来源、内容分析方法和经验模型。

板凳
kedemingshi 在职认证  发表于 2022-6-24 05:30:25
然而,作为结论,他们建议扩展用于文本内容分析的词汇,忽略自然语言过程(NLP)中的ra pid开发。尽管情感分析是机器学习(ML)和行为金融领域的一个常见研究领域,但在整合两者的研究力量方面仍存在很大差距。在本文中,我们采用Devlin et al.(2018)最新设计的NLP工具Bert,对中国社交媒体上发布的帖子构建了一个基于文本的情感指数,这是文献中首次尝试将这种最先进的学习模型应用于古生物提取。在这一阶段,我们的分析主要集中在个股层面,通过在apilot study中调查香港联交所(HKSE)三家活跃交易的上市公司,即腾讯(0700.HK)、建行(0939.HK)和平安(2318.HK),这些公司都在微博上拥有足够的曝光率。通用域名格式。然后,与Kim(2014)的多通道卷积神经网络(CNN)和Vaswani et al.(2017)的Transformer等其他著名模型相比,我们证明了BERT OnStorage构造的性能更好。通过将基于伯特的情绪指数与上述三只股票的期权信息和PCA市场数据中的其他两种类型的敏感指数相结合,wenext提供了更深入、更全面的金融情绪分析。更具体地说,我们基于Bert的观点更多地反映了个人投资者的观点,而Han(2008)提出的期权隐含的观点更多地反映了机构的态度。我们希望看到这两个对手如何影响市场,以及市场b型指数的出现,这被视为整体市场情绪。

报纸
能者818 在职认证  发表于 2022-6-24 05:30:28
最后,我们通过应用强大的序列神经网络模型长-短期记忆(LSTM),与经典的计量经济学工具(如向量自回归(VAR))平行,整合来自不同信息来源的情绪指数,来增加股票收益的可预测性。请注意,正如Yan等人(2018)指出的那样,分位数回归的L STM模型优于金融文献中常用的传统时间序列分析工具。本文的其余部分组织如下。在第2节中,我们首先由BERTand和其他NLP模型构建了文本情绪指数,以进行比较。我们在第3节中根据三种不同的信息来源进行了一般财务情绪分析。我们在第4节中讨论了个人层面的股票收益可预测性问题。最后,我们总结了pape r第5.2节文本情感指数的构建。在本文中,我们侧重于个人层面的情感分析,并以HKSET的三家上市公司为样本进行了实验。更准确地说,我们选择腾讯(0700.HK)、平安(2318.HK)和建行(0939.HK)作为我们的个人股票,并在2016年1月1日至2018年12月31日期间每天从中国流行的社交媒体微博上分别获取与这三家公司相关的帖子。接下来,我们介绍了我们在不同ML模型之间构建情感指数和评估的过程。2.1预处理工作在上述时间段内从微博上获取所有具体数据后,预处理工作包括帖子清理和贴标签。

地板
大多数88 在职认证  发表于 2022-6-24 05:30:32
正如Chen等人(2013)指出的那样,为了过滤水军发布的广告或其他嘈杂帖子,我们还采用了一种检测模式,即通过labellingInternet水军(始终由某些商业实体赞助)进行检测,这是一组付费海报,他们为特定目的发布有偏见的内容,并在当今的社交网络中传播。DataStory(www.*)推出了一款用于检测水兵的商业软件,该软件已成功服务于100多家互联网公司。这些信息会阻塞信息,同时我们会为相关股票的真正敏感帖子贴上标签。请注意,在监督学习框架下的传统情感分析中,可以用情感词标记一段上下文,如“happy”和“anger”。然而,当涉及金融文本时,我们更倾向于使用极性,即“积极”、“消极”和“中性”来标记数据,因为它们也可以代表分别对应于看涨、看跌和模糊市场的海报态度。此外,我们采用了与Ribeiro等人(2016)相似的投票策略,以提高标签的准确性。更准确地说,六分之二的每一篇帖子都有至少三位专家的人工标签,我们只保留至少两位专家同意的答案。此外,我们还需要在下一轮开始之前就我们面临的这些限制性职位达成共识。最终,在上述考虑的ed时间段内,我们从微博上获得了三支股票的117029条原始帖子,并标注了10165条(8.69%),这些帖子准备在以下方面培训和评估不同的ML模型。2.2通过BERT和其他ML模型进行评估,并与Devlin等人提出的模型进行比较。

7
能者818 在职认证  发表于 2022-6-24 05:30:35
(2018),BERT作为一个开源模型,使用MassiveDataSet进行预训练,通过多层转换对双向上下文进行编码,并报告了实现NLP下游任务中ar t结果状态的d。例如,它完成了斯坦福情感树库(SST-2)任务,作为通用语言理解评估(GLUE)基准之一,准确率高达94.9%。在本文中,我们依靠中文版“BERT Base,Chin e se”进行微调。为了将情感分析作为基本的文本分类任务,实际上存在其他类型的ML模型。以前,研究人员倾向于使用支持向量网络(SVM)(见Cortes和Vapn-ik,1995)或e-nsemble方法(见Opitz和Maclin,1999)来构建分类模型,而更简单的基于词法的方法总是在财务上采用,如SurveyedinKearney和Liu(2014)。随着越来越多的嵌入方法和计算能力的显著提高,深度学习方法在NLP的各个方面都越来越占统计学习方法的主导地位。作为与BERT的比较,我们主要考虑其他四种著名的模型,即基于递归神经网络(RNN)的双向长短期记忆(BiLSTM)(见Hochreiter和Schmidhuber,1997),多通道卷积神经网络(CNN)(见Kim,2014),Facebook采用的CPU效率快速文本(见Joulin et al.,2016),以及具有注意机制的变压器(见Vaswani et al.,2017)。请注意,由于Levy和Goldberg(2014)建议BiLSTM和多通道CNN使用预训练单词嵌入glike-Shifted正向逐点实际信息(PMI)进行初始化,因此我们最终采用了PMI增强版(见Li et al。

8
nandehutu2022 在职认证  发表于 2022-6-24 05:30:38
,2018年,例如)。表1:不同模型的性能比较ML模型精度\\u微召回\\u micro F1\\u microBERT 79.3 75.4 78.5变压器+注意77.6 64.8 71.3PMI+多通道CNN 75.9 60.6 64.3PMI+BiLSTM 75.3 56.2 62.6快速文本72.1 48.7 61.5我们将第2.1小节中描述的标记数据集按80%和20%的比例拆分为训练集和测试集,对所有模型的训练集进行10倍交叉验证。表1显示了由第2.1小节中提到的同一标记微博数据集训练的所有选定模型的绩效评估。为了避免不同类别标记结果(15%阳性、78%中性和7%阴性)比例不平衡的影响,我们使用Micro-a-Average方法分别计算精度、召回率和平均F1分数,作为模型评估的共同标准。从表中我们可以看出,在我们的训练过程中,BERT优于所有指标,尤其是在其显著的主导召回率方面,即使其精确度较高。上述结果表明,与其他ML模型相比,该模型在中文金融情感文本分类方面具有很强的能力,从而在下一小节的文献中形成了基于Firstbert的金融情感指数。看见https://github.com/google-research/bert.2.3基于BERT的情感指数我们将我们的微调BERT应用于所有通过检测模型过滤的未标记帖子,并将其分为三类极性。请注意,我们会处理在交易时间(下午4点)之后发布的帖子。

9
mingdashike22 在职认证  发表于 2022-6-24 05:30:42
(GMT+8)表示香港市场),作为下一个交易日的影响,并通过HBSIIT=P osit计算一个交易日内基于BERT的股票i情绪值BSIITF- NegitP posit+Neuit+Negit(1),其中P posit、N euitan和negita分别是与股票i相关并由BERT在交易日t输出的正文本、中性文本和负文本的数量。然后,所有BSIit的时间序列数据形成了基于BERT的金融情绪指数BSIifor stock i.3基于不同信息渠道的金融情绪分析。从文本渠道中提取部分信息,通过NLP技术从社交网络中提取社会情绪,还有另外两种类型的信息源已在金融社区中普遍使用。一是基于期权价格的风险中性隐含偏度(如Han,2008),导致期权隐含情绪;另一个渠道包括市场数据(例如,Baker和Wurgler,2006),导致市场隐含情绪。在我们的研究中,我们构建了额外的两个有情指数,然后考虑到所有的三个指数,以进行更一般的财务状况分析。3.1期权隐含和市场隐含金融情绪汉(2008)发现了期权波动率微笑、风险中性偏态和市场情绪之间的关系。他发现,当市场倾向于看跌(或看涨)时,期权波动率微笑的斜率变得更陡(或更大),风险中性偏态变为更负(正)。因此,Han(2008)提出了一种期权投资情绪代理。在他的工作之后,我们利用股票期权信息的内隐性(分别用OSIi表示)为选定的单个股票构建了相同的感知指数。市场数据为额外的市场情绪提供了传统来源。

10
可人4 在职认证  发表于 2022-6-24 05:30:45
Baker和Wurgler(2006)确定了一组他们认为受投资者情绪驱动的市场数据,并形成了此类数据集的一个潜在代理。他们采用主成分分析(PCA)来提取这种市场类型情绪,主成分分析有时被认为是一种无监督的机器学习方法。然而,由于部分选定市场特征的频率较低,例如一个月内的首次公开募股(IPO)数量,Chong等人(2014)考虑了另一组市场数据,这些数据可以每天反映投资者的情绪。因此,为了与我们之前的情绪指数保持一致,我们选择遵循Chong等人(2014)的工作,该工作也集中于香港市场,并为每个股票构建我们的市场隐含情绪指数。3.2三渠道金融情绪分析框架一般来说,市场参与者有两种类型:个人和机构。有理由相信,这两个群体以不同的方式表达他们的情感。正如我们可以想象的那样,社交媒体更加个性化,机构投资者也可以在公开场合直接表达他们对市场的态度。正如Verma和Soydemir(2009)所指出的,即使是针对机构的调查也可能包含偏见,因为它们可能严重偏离其发布的内容;然而,很明显,像机构这样的老练投资者是衍生品市场的主要贡献者。正如Easley et al.(1998)指出的那样,知情交易者更有可能在期权市场而不是股票市场进行交易。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-28 16:29