楼主: 何人来此
731 25

[量化金融] 在情绪分析中使用股票价格作为基本真理生成 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

79%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
62.5554
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24791 点
帖子
4194
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Using Stock Prices as Ground Truth in Sentiment Analysis to Generate
  Profitable Trading Signals》
---
作者:
Ellie Birbeck and Dave Cliff
---
最新提交年份:
2018
---
英文摘要:
  The increasing availability of \"big\" (large volume) social media data has motivated a great deal of research in applying sentiment analysis to predict the movement of prices within financial markets. Previous work in this field investigates how the true sentiment of text (i.e. positive or negative opinions) can be used for financial predictions, based on the assumption that sentiments expressed online are representative of the true market sentiment. Here we consider the converse idea, that using the stock price as the ground-truth in the system may be a better indication of sentiment. Tweets are labelled as Buy or Sell dependent on whether the stock price discussed rose or fell over the following hour, and from this, stock-specific dictionaries are built for individual companies. A Bayesian classifier is used to generate stock predictions, which are input to an automated trading algorithm. Placing 468 trades over a 1 month period yields a return rate of 5.18%, which annualises to approximately 83% per annum. This approach performs significantly better than random chance and outperforms two baseline sentiment analysis methods tested.
---
中文摘要:
“大”(大容量)社交媒体数据的日益可用性激发了大量研究,将情绪分析应用于预测金融市场内的价格变动。该领域之前的工作基于在线表达的情绪代表真实的市场情绪的假设,研究如何将文本的真实情绪(即积极或消极的意见)用于财务预测。在这里,我们考虑的是相反的想法,即在系统中使用股票价格作为基本事实可能是更好的情绪指示。推特被标记为买入或卖出,这取决于股价在接下来的一小时内是上涨还是下跌,并由此为个别公司构建了特定于股票的词典。贝叶斯分类器用于生成股票预测,并将其输入到自动交易算法中。在一个月内完成468笔交易,收益率为5.18%,折合成年率约为83%。该方法的性能明显优于随机机会,并优于测试的两种基线情绪分析方法。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Computational Engineering, Finance, and Science        计算工程、金融和科学
分类描述:Covers applications of computer science to the mathematical modeling of complex systems in the fields of science, engineering, and finance. Papers here are interdisciplinary and applications-oriented, focusing on techniques and tools that enable challenging computational simulations to be performed, for which the use of supercomputers or distributed computing platforms is often required. Includes material in ACM Subject Classes J.2, J.3, and J.4 (economics).
涵盖了计算机科学在科学、工程和金融领域复杂系统的数学建模中的应用。这里的论文是跨学科和面向应用的,集中在技术和工具,使挑战性的计算模拟能够执行,其中往往需要使用超级计算机或分布式计算平台。包括ACM学科课程J.2、J.3和J.4(经济学)中的材料。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
--> Using_Stock_Prices_as_Ground_Truth_in_Sentiment_Analysis_to_Generate_Profitable_.pdf (543.12 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:股票价格 Applications Quantitative Mathematical Availability

沙发
kedemingshi 在职认证  发表于 2022-6-11 03:06:43 |只看作者 |坛友微信交流群
在情感分析中使用股票价格作为基本事实,生成可预测的交易信号Sellie Birbeck布里斯托尔大学计算机科学系BS8 1UB,UKeb13817@bristol.ac.ukDave克利夫布里斯托尔大学计算机科学系布里斯托尔BS8 1UB,UKcsdtc@bristol.ac.ukAbstract-越来越多的“大”(海量)社交媒体数据的可用性激发了大量研究,将情绪分析应用于预测金融市场的价格走势。本领域之前的工作基于在线表达的情绪代表真实的市场情绪的假设,调查了文本的真实情绪(即积极或消极的意见)如何用于财务预测。在这里,我们考虑的是相反的想法,即在系统中使用股票价格作为基本事实可能是更好的情绪指示。推特上的标签是买入还是卖出,取决于接下来一小时内股价是上涨还是下跌,并由此为个别公司构建了股票专用词典。贝叶斯分类器用于生成股票预测,并将其输入自动交易算法。在一个月内进行468笔交易,收益率为5.18%,折合成年率约为83%。这种方法的表现明显优于随机机会,优于两种测试的基线情绪分析方法。指数术语金融工程、金融市场、自动交易、情绪分析、机器学习。引言情感分析领域通常被称为“意见挖掘”,从这个定义来看,它的价值显而易见:不仅能够理解一段文本所指的内容,而且能够理解对文本主题的态度,这是一个有力的工具。

使用道具

藤椅
何人来此 在职认证  发表于 2022-6-11 03:06:46 |只看作者 |坛友微信交流群
大数据的兴起促使人们希望将情感分析应用于许多领域,而金融市场则是一个具有显著潜在收益的领域。准确解读潜在市场情绪的能力将间接表明在做出和预测交易决策方面的优势。这一前提推动了在自动交易系统中应用情绪分析和机器学习方法的研究。情感分析的一种方法是文本分类,通过学习文本文档的标签状态来构建预测模型。对标记数据的需要是情绪分析研究中的一个关键障碍,因为其上下文敏感的性质通常需要人类的评估——即使如此,人类在大约20%的时间里无法对情绪达成一致【17】。有一系列现有的情感词典可以从第三方提供商处获得,但这些词典通常会得出不特定于任何领域的通用分数。在本文中,根据文献[1],我们描述了一种新的方法,该方法根据股票价格的后续变化而不是实际表达的情绪来标记与股票相关的文本文档,并使用这种方法创建和策划了针对单个股票的字典。有许多数据来源可以被认为是当前财务情绪的代表。从官方企业季度报告、新闻文章到帽子论坛。其中一个来源是推特,这是一个全球流行的微型博客平台,它允许用户向其追随者发布短消息(推特),并扩展到普通公众。自成立以来,Twitter一直被金融投资者和投机者用来发布他们的交易提示、分析和市场意见。这一领域的活动近年来有所增加,这在很大程度上是由于现金标签的引入。

使用道具

板凳
kedemingshi 在职认证  发表于 2022-6-11 03:06:49 |只看作者 |坛友微信交流群
Cashtags与hashtags相似,因为它们是元数据标签,用于将同一标记的推文归档在一起,但Cashtags仅用于股票行情。除了用来识别标签的#符号之外,任何股票代码前面都有$符号,例如$AAPL,识别推特,作为有关科技公司苹果股价的更大对话的一部分。仅针对tweets包含现金标签,这使我们能够区分那些以消费者身份发布公司信息的休闲用户和通过tweet主题讨论股票的交易员社区。使用推特跟踪与股票相关的信息流可以被认为是在倾听交易员在地板上大喊。过去,“对讲机”是一种用于此目的的工具,对讲机扬声器允许交易决策中涉及的各方进行沟通,并及时了解市场发展情况,尽管交易者不再在同一地点。随着交易流量变得越来越自动化,衡量财务情绪的替代措施的必要性变得越来越明显。推特提供了完成这项任务所需的大量实时数据,但值得注意的是,数字环境可能比传统的人类在贸易坑“公开抗议”的动力学更容易受到噪音、垃圾邮件和羊群本能的影响。二、相关工作【2】中的工作产生了一篇使用情绪分析预测股市走势的最广泛论文。这项研究调查了公众情绪和经济指标之间的相关性,通过测量给定时间段内所有推特的微小百分比来衡量集体情绪。在这里,从整个发布推文流中抽取的样本将诺雷加用于讨论的主题。

使用道具

报纸
能者818 在职认证  发表于 2022-6-11 03:06:53 |只看作者 |坛友微信交流群
因此,大部分内容将与预测无关,并且这些推文中的任何特定股票信息都不能具体推断为价格变化的原因。在[14]中,仅使用股票相关推文克服了这一限制,尤其是第一次使用包含特定股票参考信息的推文,而不是指数或聚合信息。这项研究的结果表明,所收集的推特确实包含了尚未纳入市场指标的有价值信息。文献[9]也对减少信息范围的必要性进行了类似的观察,其中金融文本中常见的情绪分类错误是构建情绪词典的动机,该词典专门针对金融文献中使用的语言进行调整。我们熟悉的所有相关工作中的一个主要假设是,文本中表达的情绪反映了作者持有的真实观点,进而反映了真实的市场情绪。这种假设的影响可能导致交易决策基于不能代表真实潜在市场情绪的信息。一些作品选择使用自标记数据,如StockTwits上的消息,这是一个金融交流平台,用户可以在其中将自己的帖子标记为“看涨”或“看跌”。然而,有证据表明,日间交易者的推荐中存在着强烈的偏见,尤其是自我披露的持有标签实际上传达了积极的情绪,而不是中性的情绪。这一说法遵循了交易者普遍的乐观态度,这一点得到了[19]的进一步支持,推特中使用的积极词与消极词的比例超过了二比一。

使用道具

地板
大多数88 在职认证  发表于 2022-6-11 03:06:55 |只看作者 |坛友微信交流群
individualtraders预测的乐观前景与金融新闻文章的乐观前景形成了对比,后者往往具有负偏差[4],是许多自动交易算法的另一个数据来源。通过使用股票价格作为基本事实,我们旨在避免这些明显的情绪标签偏差。在评估模型结果时,[2]和其他几个人在很短的时间内对他们的预测进行了测试,导致结果的可靠性受到质疑。【10】一项研究指出了这一点,该研究在得出任何结论之前,对605个交易日进行了305次预测。在这次大规模测试之后,他们没有发现任何证据表明可预测性带来了有用的回报,尽管有证据表明交易量与推特数量之间存在联系。文献[3]进一步证实了上下文特征(如交易量)在预测价格方面的价值,其中博客传播动力学研究了与博客评论相关的股价波动的方向和幅度。评论的长度、频率和响应时间等特征与股市活动表现出强烈的相关性。就添加上下文特征而言,添加非基于情感的特征(如纯数量特征)似乎很有希望。这项工作用两种类型的交易代理模拟了一个市场:一种是私下观察新闻,但不解释其他代理观察到的新闻;另一个原因是,来自新闻的信息在交易者人群中传播开来。

使用道具

7
nandehutu2022 在职认证  发表于 2022-6-11 03:06:59 |只看作者 |坛友微信交流群
这种形式的“动量交易”允许只观察因反应不足或过度而产生的定量指标,而不是实际的定性新闻内容本身。尽管这一领域之前的几项工作似乎在预测股票走势方面表现出了相当高的准确度,但很少有人测试这种预测的真实价值:即产生利润的能力。在[15]中的工作强调了预测回报的挑战,声称真实回报的难以捉摸性是因为预测模型只能在短期内持续。这里回顾的许多作品都试图做出相对长期的预测,而忽视了推特上信息传播的实时性。不同寻常的是,我们在本文中的工作利用了持续不断的新闻流,通过进行日内分析和预测小时市场走势。三、 方法学。数据收集对于许多有监督的分类任务来说,这是一个巨大的障碍,无法获取标记的数据-这对于情感分析来说尤其如此,因为数据往往具有上下文敏感的性质,因此通常需要人工标记。这里开发的基于价格的情绪标记方法允许我们不费吹灰之力就生成一个大型数据集,仅限于公开的股票相关推文数量。对25只股票的推特量进行了评估,其中使用现金标签最多的股票是苹果(Apple)、特斯拉(Tesla)、推特(TWTR)、Facebook(FB)和Netflix(NFLX)。一个网络抓取脚本被用来检索这些股票在两年内共1474747条推文。2015年和2016年的数据用于培训(80%)和验证(20%),2017年的数据用于测试一个全新的时间段。

使用道具

8
可人4 在职认证  发表于 2022-6-11 03:07:02 |只看作者 |坛友微信交流群
一个简单的垃圾邮件过滤器针对的是最常见的垃圾邮件推特形式,其中atweet包含了多家不同公司的现金标签,但内容仅提及其中一家或一家。通过排除包含3个或更多现金标签的推文,忽视这些推文,数据集减少了23.9%。所有股票的市场数据均包含日期、时间、开盘价、收盘价、高点、低点和成交量,从开盘到收盘的时间间隔为一分钟。为推文数据集添加分类,包括确定股票价格的基本事实。如前所述,这里的分类并不是指推特内容中表达的情绪,而是简单地指示是否应该购买或出售所指股票,这取决于推特发布后一小时的价格是上涨还是下跌。为每条推文分配了时间信息,包括推文前后一小时的价格,以及推文前的音量。最初,边缘案例(如在市场开放或关闭时间发布的tweetspoted、在市场时间之外发布的tweetsoutside以及在周末和公共假日发布的tweetspoted)通过外推进行赋值。然而,由于引入了一些偏差,这导致数据变得嘈杂。例如,市场收盘前一小时的异常活动可能会被这些价值夸大,而这些价值现在占据了数小时的数据价值。B、 语言处理为了将推文的文本内容转换为可使用的对象,应用标记器来解析每条推文,将它们分离为单独的单词,并过滤以删除不相关的信息。

使用道具

9
大多数88 在职认证  发表于 2022-6-11 03:07:05 |只看作者 |坛友微信交流群
这个过程包括将字符转换为小写,删除标点符号,将三个或更多同时重复的字母减少为两个,删除纯粹的数字符号,以及用标记替换URL。由于需要分析每个单词的预测能力,将单词简化为基本形式会导致有价值的信息丢失,因此没有应用引理化和词干分析过程。例如,“承诺”和“承诺”这两个词都会产生引理“承诺”,但在提到股票表现时,它们可能会暗示出完全不同的情绪。[9]中也有同样的观察结果,这项研究涉及到创建一个与金融环境相适应的情感词典,该词典还考虑了显性无反射的错误倾向。尽管词性标注在许多情感分析任务中有价值,但这项工作中也没有使用词性标注。鉴于我们的目的不是识别实际情绪,而是识别与价格变化相关的语言模式,语法类别的识别被认为没有多大用处。此外,推特上表达的非正式语言产生了许多没有被定义为实际单词的单词,如俚语、缩写和为标签串联的单词,因此很难准确标记。使用TF-IDF矢量化、权重平滑和L2归一化,从语料库中创建一个单一的特征矩阵【11】。这使得频繁出现在推特中的术语具有更大的权重,如果该术语在整个语料库中也频繁出现,则会被抵消。这种降低频繁词权重的效果可以过滤语言中常见的“停止词”,如“and”或“the”。它还可以在不需要自定义词典的情况下过滤语料库中特定的停止词。C

使用道具

10
能者818 在职认证  发表于 2022-6-11 03:07:09 |只看作者 |坛友微信交流群
模型开发评估了三种不同类型的模型的预测精度:带RBF核的支持向量机;朴素贝叶斯和逻辑回归。所有三个模型都是使用scikit学习库实现的【11】。考虑到朴素贝叶斯(Naive Bayes)对离散项频率的适用性,使用了朴素贝叶斯(Naive Bayes)的多项式变量,并将该模型作为拉普拉斯平滑(Laplace smoothing)的标准来实现,并设置了类优先级,以考虑每个股票的训练数据偏斜度的微小变化。产生的特征权重是经验对数概率,表明每个单词对推特类别的预测程度。SVM模型最初考虑使用各种核函数(线性、多项式、高斯),但鉴于RBF核函数的性能优于其他核函数,因此它是这里唯一得到全面和比较评估的实现。对于Logistic回归模型,采用协方差为2λI的零均值高斯先验进行平滑,并在惩罚中使用L2正则化。该模型采用以下成本函数的标准最小化实现:minθλkθk+nXi=1log(1+exp(-ciθ>di),更多技术细节见【1】。除了评估每个模型的准确性外,还考虑了两个额外的性能指标:真实购买率(TBR);和真实销售率(TSR)。这些代表了正确预测的买入/卖出信号数除以实际买入/卖出信号数:本质上是对每一类准确度的加权衡量,没有精度和召回率等指标出现的正偏差。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-9-19 22:23