楼主: 何人来此
1034 24

[量化金融] 将新闻情绪与网络浏览数据相结合,可以提高对信息的预测 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
64.8012
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24593 点
帖子
4128
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
何人来此 在职认证  发表于 2022-5-7 06:07:56 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Coupling news sentiment with web browsing data improves prediction of
  intra-day price dynamics》
---
作者:
Gabriele Ranco, Ilaria Bordino, Giacomo Bormetti, Guido Caldarelli,
  Fabrizio Lillo, Michele Treccani
---
最新提交年份:
2015
---
英文摘要:
  The new digital revolution of big data is deeply changing our capability of understanding society and forecasting the outcome of many social and economic systems. Unfortunately, information can be very heterogeneous in the importance, relevance, and surprise it conveys, affecting severely the predictive power of semantic and statistical methods. Here we show that the aggregation of web users\' behavior can be elicited to overcome this problem in a hard to predict complex system, namely the financial market. Specifically, our in-sample analysis shows that the combined use of sentiment analysis of news and browsing activity of users of Yahoo! Finance greatly helps forecasting intra-day and daily price changes of a set of 100 highly capitalized US stocks traded in the period 2012-2013. Sentiment analysis or browsing activity when taken alone have very small or no predictive power. Conversely, when considering a \"news signal\" where in a given time interval we compute the average sentiment of the clicked news, weighted by the number of clicks, we show that for nearly 50% of the companies such signal Granger-causes hourly price returns. Our result indicates a \"wisdom-of-the-crowd\" effect that allows to exploit users\' activity to identify and weigh properly the relevant and surprising news, enhancing considerably the forecasting power of the news sentiment.
---
中文摘要:
大数据的新数字革命正在深刻改变我们理解社会和预测许多社会和经济系统结果的能力。不幸的是,信息在其传达的重要性、相关性和惊喜方面可能非常异构,严重影响了语义和统计方法的预测能力。在这里,我们展示了在一个难以预测的复杂系统中,即金融市场中,可以通过聚合网络用户的行为来克服这个问题。具体来说,我们的样本分析表明,将新闻情绪分析与雅虎用户的浏览活动结合使用!《金融》极大地帮助预测了2012-2013年期间交易的100只高度资本化的美国股票的日内和每日价格变化。单独进行情绪分析或浏览活动时,预测能力很小或没有。相反,当考虑一个“新闻信号”时,在给定的时间间隔内,我们计算点击新闻的平均情绪,通过点击次数加权,我们表明,对于近50%的公司,这种信号格兰杰会导致每小时的价格回报。我们的结果表明,“群体智慧”效应允许利用用户的活动来识别和适当权衡相关和令人惊讶的新闻,大大增强了新闻情绪的预测能力。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:相结合 Applications Quantitative Econophysics Statistical

沙发
nandehutu2022 在职认证  发表于 2022-5-7 06:08:01
将新闻情绪与网络浏览数据相结合,可以改善对日内价格动态的预测加布里埃尔·兰科、**、伊拉里亚·博尔迪诺、贾科莫·博尔梅蒂3,4、吉多卡尔达雷利1,5,6、法布里齐奥·利洛3,4和米歇尔·特雷卡尼4,7、*IMT高等研究所、圣弗朗切斯科广场19号、55100卢卡、意大利雅虎实验室、巴塞罗那、西班牙师范大学、卡瓦列里广场7号、56126比萨、意大利泉特拉布、,Via Pietrasantina 123、56122 Pisa、ItalyISC CNR、Via dei Taurini 19、00185 Roma、Italy伦敦数学科学研究所、南圣美费尔35号、伦敦W1K 2XF、UKMediobanca S.p.A、Piazzetta E.Cuccia 1201211、意大利米兰*此处表达的观点仅为作者的观点,不以任何方式代表其雇主的观点**信件应寄往G.R.(加布里埃尔)。ranco@gmail.com)2015年12月16日摘要大数据的新数字革命正在深刻改变我们理解社会和预测许多社会和经济系统结果的能力。不幸的是,信息在其所传达的重要性、相关性和惊喜方面可能非常不一致,这严重影响了语义和统计方法的预测能力。在这里,我们展示了在一个难以预测的复杂系统,即金融市场中,可以通过聚合网络用户的行为来克服这个问题。具体而言,我们的样本分析表明,将新闻情绪分析与雅虎用户的浏览活动相结合!Finance大大有助于预测2012-2013年期间交易的100只高资本化美国股票的日内和每日价格变化。单独进行情绪分析或浏览活动时,预测能力很小或没有。

藤椅
kedemingshi 在职认证  发表于 2022-5-7 06:08:04
相反,当考虑一个新闻信号时,在给定的时间间隔内,我们计算点击新闻的平均情绪,通过点击次数进行加权,我们表明,对于近50%的公司,这种信号格兰杰会导致每小时的价格回报。我们的研究结果显示了一种“群体智慧”效应,它允许利用用户的活动来识别和适当权衡相关和令人惊讶的新闻,大大增强了新闻情绪的预测能力。1导言最近的技术革命,通过互联网连接的计算机、用户和媒体的广泛存在,创造了前所未有的数据泛滥局面,极大地改变了我们看待社会和经济科学的方式。随着人们越来越多地使用互联网获取商业或政治新闻等信息,网络活动已经成为集体意识的一面镜子,反映了全球人口对各种经济、政治和文化现象的兴趣、担忧和意图。人类与技术系统的互动正在生成大量数据集,以以前无法想象的方式记录集体行为[1,2]。通过正确处理此类数据收集,例如通过网络结构[3,4]来表示它们,可以提取有关所考虑的系统演化的相关信息(即交易[5]、疾病传播[6,7]、政治选择[8])。一个特别有趣的研究案例是金融市场。市场可以被视为集体决策系统,在这个系统中,外部(新闻)和内部(价格变动)信号传递有关公司价值的有价值信息。投资者持续监控这些信号,试图预测未来的价格走势。

板凳
何人来此 在职认证  发表于 2022-5-7 06:08:07
由于它们基于这些信号进行交易,信息被整合到价格中,正如有效市场假说[9]所假设的那样。因此,关于投资者活动的新闻和数据流可以用来预测价格变动。关于新闻与价格运动之间关系的文献相当丰富。为了将新闻和价格回报联系起来,我们需要评估前者是在传达有关公司、特定行业还是整个市场的正面或负面信息。这通常通过情绪分析来完成,通常使用Methods部分中描述和回顾的专用语义算法来执行。在本文中,我们将来自公共新闻传达的情绪的信息与金融专业门户用户的浏览活动结合起来,以预测每日和日内的价格回报。为此,我们利用一个由雅虎日志片段组成的uniquedataset!财务,包含网站上显示的新闻文章和相应的“点击”次数,即用户所做的可视化。我们的分析考虑了2012年至2013年一年期间的100只高资本美国股票。对于这些公司中的每一家,我们都建立了相关新闻中表达的情绪的签名时间序列。每篇提到一家公司的文章中所表达的情感是由文章的观点数量来衡量的。在我们的数据集中,每个点击动作都与一个时间戳相关联,该时间戳记录了该动作发生的确切时间点。因此,我们能够以一分钟的时间分辨率构建时间序列。据我们所知,这是第一次像本文中描述的那样以这样的日内粒度进行分析。

报纸
kedemingshi 在职认证  发表于 2022-5-7 06:08:10
这种方法背后的主要思想是,情绪分析提供了有关新闻的信息,而浏览量使我们能够根据用户收到的关注来适当衡量新闻。我们发现,同一家公司的新闻在点击次数上存在极大的差异,这表明它们的重要性以及这些新闻对用户产生的兴趣存在巨大差异。对于70%的被调查公司而言,与该公司相关的金融新闻浏览量与其交易量或绝对价格回报之间存在显著相关性。更重要的是,我们表明,对于50%以上的公司(按小时时间尺度),以及近40%的公司(按每日时间尺度),点击加权平均情绪时间序列格兰杰会导致价格回报,表明具有相当大的可预测性。DataStocks ConsiderDour分析是针对美国股市中属于罗素3000指数的高资本股票进行的,我们在2012年至2013年间对其进行了为期一年的监控。在所有公司中,我们选择了100只在onYahoo上发布新闻最多的股票!调查期间的财务状况。

地板
能者818 在职认证  发表于 2022-5-7 06:08:14
具有独特数字公司标识的受调查股票的股票清单如下:1kbh、2 LEN、3 COST、4 DTV、5 AMGN、6百胜、7 UPS、8 V、9 AET、10 GRPN、11 ZNGA、12 ABT、13 LUV、14 RTN、15 HAL、16 ATVI、17 MRK、18 GPS、19 GILD、20 LCC、21 NKE、22 MCD、23 UNH、24道指、25米、26 CBS、27 COP、28 CHK、29 CAT、30 HON、31 TWX、32 pepag、33 UAL、34 TXN、35 bib、36 WAG、37、,40 QCOM、41 ACN、42 NOC、43 DISH、44 BBY、45 HD、46 PG、47 JNJ、48 AXP、49 MAR、50 TWC、51 UTX、52 MA、53 BLK、54 EBAY、55 DAL、56 NWSA、57 MSCI、58 LNKD、59 TSLA、60 CVX、61 AA、62 NYX、63 JCP、64 CMCSA、65 NDAQ、66 IT、67 YHOO、68 DIS、69 SBUX、70 PFE、71 ORCL、72 HPQ、73 S、74 LMT、75 XOM、76 IBM、77 NFLX、78 INTC、79 AA、62 GE、68 CMCSCO、65 NDAQ、86 AMF、86、84 AMF、86、84、84、84、84 AMF、,89首字母,90 VZ,91 FB,92 BAC,93 MS,94 JPM,95 C,96 BA,97 GS,98 MSFT,99 GOOG,100 AAPL。数字标识是根据雅虎发布的新闻总数的递增顺序分配的!资金我们考虑了所选股票的三个主要数据来源:市场数据。第一个来源包含关于股票价格回报和交易量的信息。我们考虑不同的调查时间尺度,对应于1、10、30、65和130分钟。之所以选择上述数值,是因为它们是美国市场交易日的次倍数(从上午9:30到下午4:00,相当于390分钟)。对于每个时间尺度和每个股票,我们提取以下时间序列:oV,该时间间隔内的交易量,oR,时间尺度内的对数价格回报,oσ,回报绝对值,股票波动的简单代理。材料部分给出了这些变量的精确定义。

7
kedemingshi 在职认证  发表于 2022-5-7 06:08:17
由于交易量和绝对价格回报显示出强烈的日内模式,我们对相应的时间序列进行季节化处理(在同一节中,我们提供了有关该过程的详细信息)。为了避免由于存在可预测的日内模式而检测到纯相关性和格兰杰因果关系,这个过程是必要的。新闻数据第二个数据来源是雅虎发布的新闻!财务与浏览每个页面的用户所做的聚合点击的时间序列相结合。雅虎!Finance是一个门户网站,提供与金融公司相关的新闻和数据,以及有关股票报价、股票汇率、企业新闻稿、财务报告和讨论留言板的新闻和信息。雅虎为消费者提供全面的在线金融服务和信息!Finance一直是这一领域的领导者:2008年5月,它以1850万美国访客位居金融网站榜首,其次是AOL Money&Finance,有1520万访客(增长48%),MSN Money,有1370万访客(增长13%)。今天,2015年7月发布的最新估计证实了雅虎!拥有超过7200万访问者的Finance仍然是美国领先的金融网站,在全球排名第四。我们分析了雅虎日志的一部分!财经,包含门户上显示的新闻文章。这些文章带有正文中提到的特定公司(如谷歌、雅虎、苹果、微软)或金融实体(如市场指数、商品、衍生品)的标签。本文分析的数据集不包含公共数据。

8
何人来此 在职认证  发表于 2022-5-7 06:08:20
它是从雅虎的浏览日志中提取的!金融门户网站。该日志存储了访问网站的用户所做的所有操作,例如在门户上显示的每个页面上的视图、单击和评论。具体来说,我们摘录了雅虎上展示的新闻文章!财务和相应的“点击次数”,即用户所做的可视化。我们在2012年至2013年的一年时间里考虑了100只美国股票。对于每一家被考虑的公司,我们建立了一个相关新闻中表达的情绪的签名时间序列。每篇提到一家公司的文章中所表达的情感是由文章的观点数量来衡量的。在我们的数据集中,每个点击动作都与一个时间戳相关联,该时间戳记录了该动作发生的确切时间点。因此,我们能够以一分钟的时间分辨率构建时间序列。在构建数据集的过程中,我们观察了雅虎在数据和本研究所用工具的一致性方面的公司政策。在提取和聚合过程后,Yahoouser的任何敏感标识都被丢弃。此外,我们的数据集不存储单个操作或用户,只存储雅虎上显示的金融文章的总浏览量!资金虽然雅虎的原始日志!财务是专有的,显然不能共享,为了分析的可重复性,我们可以提供为100家公司提取的浏览量时间序列作为补充资料。http://www.comscore.com/Insights/Press-Releases/2008/07/Yahoo!-财经美国顶级财经新闻和研究网站http://www.niemanlab.org/2015/07/newsonomics-how-much-is-the-financial-times-worth-and-who-might-buy-it/In为了自动检测文章是否传达了对公司的正面或负面消息,我们进行了情绪分析。

9
能者818 在职认证  发表于 2022-5-7 06:08:23
为了获得情绪分数,我们使用SentiStrength[10]对每篇文章进行分类,SentiStrength[10]是一种从非正式文本中提取积极和消极情绪的最先进工具。该工具基于一本“情感”词汇词典,由专家编辑手工挑选,并用数字标注,表明它们表达的积极或消极的程度。最初的SentiStrength字典并不是针对任何特定的知识或应用领域定制的,因此它不是计算金融情绪的最合适选择。为了解决这个问题,按照大多数情绪分析和价格回报研究[17]中常见的做法,我们对原始词典进行了修改,加入了金融领域特别感兴趣和重要的情绪关键词列表[11]。在材料部分,我们将讨论这种选择的稳健性,以及新闻与股票的关联方式。在之前研究股价对新闻标题反应的研究[12,13,14,15,19,18]的支持下,我们简化了数据处理流程,对每篇文章的标题进行情绪分析计算,而不是使用其全部内容。这种选择的主要原因是,新闻的基调通常会在标题中突出显示,而在文本中使用许多中性词会增加噪音,降低评估情绪的能力。

10
大多数88 在职认证  发表于 2022-5-7 06:08:27
最后,选择还取决于数据的可用性:我们掌握的日志并不总是包含新闻文本,这将迫使我们使用一个重要的子样本。情绪分数是一个简单的标志(-1,0,+1)根据标题中是否有更多正面或负面的词语,为每一条新闻添加1,0,+1)。浏览数据最后,在我们的分析中,我们使用了浏览量上的信息,即网络用户在雅虎上显示的每篇文章上“点击”的时间序列!Financeto查看其内容。鉴于该特定领域门户网站上的用户活动被证明提供了对金融股票感兴趣的清晰信号[16],我们在这项工作中利用它来了解给定金融公司每篇文章的情绪。具体来说,我们使用一篇文章的点击次数来衡量用户对该新闻的关注程度。通过在一个时间窗口内汇总所有提到某一特定公司的文章的点击量,甚至是发布量更大的文章,就有可能得出对该公司关注度的估计。总之,对于每个时间尺度和每个股票,我们从数据库中提取的变量是(参见资料部分):oC,时间窗口中点击总数的时间序列,oS,与每家公司相关的所有新闻的情绪总和,oW S,所有新闻的情绪总和,按点击次数加权。第一个数量C是非负的,衡量特定公司新闻在给定时间间隔内的关注程度。S变量是众多研究中常用的情绪指标,它提供了在给定时间间隔内发布的公司特定新闻的总体情绪。最重要和新颖的数量是W S,它结合了前两个数量,根据点击新闻的情绪为每次点击指定一个符号。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 15:16