楼主: nandehutu2022
867 17

[量化金融] 牛市-熊市平衡:社会知情金融的聚类分析 [推广有奖]

  • 0关注
  • 5粉丝

会员

学术权威

74%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
69.2521
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24246 点
帖子
4004
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-20

楼主
nandehutu2022 在职认证  发表于 2022-6-11 04:59:34 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Bull Bear Balance: A Cluster Analysis of Socially Informed Financial
  Volatility》
---
作者:
Jonathan Manfield, Derek Lukacsko and Th\\\'arsis T. P. Souza
---
最新提交年份:
2018
---
英文摘要:
  Using a method rooted in information theory, we present results that have identified a large set of stocks for which social media can be informative regarding financial volatility. By clustering stocks based on the joint feature sets of social and financial variables, our research provides an important contribution by characterizing the conditions in which social media signals can lead financial volatility. The results indicate that social media is most informative about financial market volatility when the ratio of bullish to bearish sentiment is high, even when the number of messages is low. The robustness of these findings is verified across 500 stocks from both NYSE and NASDAQ exchanges. The reported results are reproducible via an open-source library for social-financial analysis made freely available.
---
中文摘要:
使用一种植根于信息理论的方法,我们给出的结果表明,社交媒体可以为大量股票提供有关金融波动的信息。通过基于社会和金融变量的联合特征集对股票进行聚类,我们的研究通过描述社交媒体信号可能导致金融波动的条件提供了重要贡献。结果表明,当牛市情绪与熊市情绪的比率较高时,即使消息数量较低,社交媒体对金融市场波动的信息也最多。纽约证交所和纳斯达克交易所的500只股票验证了这些发现的稳健性。报告的结果可通过免费提供的社会财务分析开源图书馆复制。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Physics        物理学
二级分类:Data Analysis, Statistics and Probability        数据分析、统计与概率
分类描述:Methods, software and hardware for physics data analysis: data processing and storage; measurement methodology; statistical and mathematical aspects such as parametrization and uncertainties.
物理数据分析的方法、软硬件:数据处理与存储;测量方法;统计和数学方面,如参数化和不确定性。
--

---
PDF下载:
--> Bull_Bear_Balance:_A_Cluster_Analysis_of_Socially_Informed_Financial_Volatility.pdf (732.58 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:聚类分析 social media Mathematical Quantitative Contribution

沙发
能者818 在职认证  发表于 2022-6-11 04:59:39
计算会议201718-2017年7月20日|伦敦,英国布尔熊平衡:社会信息金融波动的聚类分析乔纳森·曼菲尔德伦敦大学学院计算机科学系(UCL)j。manfield@cs.ucl.ac.ukDerekLukacskoComputer Science DepartmentUniversity College London(UCL)德里克。卢卡茨科。15@ucl.ac.ukTh\'arsis T.P.SouzaComputer Science DepartmentUniversity College London(UCL)T。souza@cs.ucl.ac.ukAbstractUsing基于信息理论的方法,我们给出的结果确定了一大组股票,socialmedia可以为这些股票提供有关金融波动性的信息。通过基于社会和金融变量的联合特征集对股票进行聚类,我们的研究通过描述社交媒体信号可能导致金融波动的条件,做出了重要贡献。结果表明,当牛市情绪与熊市情绪的比率较高时,即使消息数量较低,社交媒体对金融市场波动的信息也最多。这些发现的稳健性验证了纽约证券交易所和纳斯达克交易所的500只股票。报告的结果可通过免费提供的开源社会财务分析图书馆复制。索引项数据挖掘;情绪分析;股票市场k-均值聚类;相互信息;信息论;挥发性。导言最近的研究削弱了市场价格不可预测性的共识。

藤椅
何人来此 在职认证  发表于 2022-6-11 04:59:42
因此,预测股市已经引起了不同领域和领域的关注,这些领域和领域探索了不同的信息渠道,如新闻[1]、[2]、[3]、搜索引擎[4]、[5]、[6]、[7],以及最近的社交媒体[8]、[9]、[10]、[11]。社交媒体尤其令人感兴趣,因为不断发展的网络不断提供和创建信息,其活动量和速度都很高。它提供可归因于特定人员、事件、市场和证券的实时信息。这是通过在消息中使用所谓的cashtag(例如,“$AAPL”)来实现的,支持创建与特定股票符号相关的提要。此后,现金标签的使用被传播到了推特上,从而提供了一种将社会情绪引导到它所引用的特定股票或证券的方法。因此,社交媒体用户情绪可以作为金融市场活动的信息来源。现在,交易者、专业博主和分析师的意见,以及外行的意见,都聚集在一个动态的社交网络中,这可能解释了市场行为的一些差异。最初的研究[12]试图量化社交媒体分析与每日回报等金融市场数据之间的关系。观察到的结果优于基准交易策略,证明推特的数量可以减少财务回报的不确定性。然而,基于体积的方法忽略了来自数据定性方面(即实际内容或内容极性)的任何可能的预测信息。通过将情绪分析技术应用于推特语料库,可以得出情绪得分或情绪分类,以量化这一定性维度。

板凳
mingdashike22 在职认证  发表于 2022-6-11 04:59:45
这种语义预测方法的有效性已经在[8]中进行了检验,其中从大量每日推文中分析的集体情绪被用于将现有财务预测的准确率提高到87.6%。虽然对多个金融证券进行广泛分析可能会发现,社会迹象在某种程度上与解释金融动力学相关[8],[9],但对于区分具有预测性社会信号的资产与没有社交媒体提供额外信息的资产的混杂因素知之甚少。通过信息理论测度中的非参数分析,我们证明社会符号对纽约证券交易所和纳斯达克交易所的大多数股票都有用。与当前文献相比,这本身就是一个有趣且非常合理的结果。然而,我们首次扩展了这一分析,以提供对区分预测性社会信号和非预测性社会信号可能至关重要的特征的可能解释。A、 研究问题oRQ1。当使用社交媒体作为股票未来波动性的领先指标时,纳斯达克和纽约证券交易所的哪些股票表现出显著的信息盈余?对于每只股票,在财务和社交媒体数据之间进行超前-滞后互信息分析RQ2.在社交媒体和财务变量的何种配置下,社交媒体分析能够为未来的财务变动提供信息?我们的目标是确定公司的特征文件(使用财务和社交媒体变量),这些特征文件是最具统计意义的社交媒体交付周期信息的指标。IEEE 1 | P a g电子计算会议201718-2017年7月20日|英国伦敦。方法学。

报纸
大多数88 在职认证  发表于 2022-6-11 04:59:48
数据该数据对应于2012年1月1日至2016年1月1日期间纽约证券交易所和纳斯达克上市公司的每日社交媒体分析和市场报价。社交媒体数据由PsychSignal(14)提供,该公司运营一个定制的Twitter和StockTwits collectionframework,跟踪包含现金标签(如$AAPL)的消息。最先进的自然语言处理算法被应用到相关消息中,用情绪倾向(即看涨或看跌)和倾向强度度量来标记每个消息。为每个跟踪库存提供了这些数据的每日汇总。此外,对于每个有可用社会媒体数据的股票,我们还考虑了每日股票报价的历史记录。使用了以下数据集:oPsychSignal社交媒体数据库。包含以下股票报价属性的情绪每日聚合:-符号:情绪数据所指的股票符号(股票代码);-TIMESTAMP\\u UTC:UTC格式的分析数据的日期和时间;–看涨强度:积极情绪极性;-熊市强度:负面情绪极性;-BULL\\u SCORED\\uMessages:积极情绪量、消息数量;–BEAR\\u SCORED\\uMessages:负面情绪量、消息数量;-TOTAL\\u SCANNED\\uMessages:扫描的邮件总数。o谷歌金融。每日市场报价:–开盘价:每日开盘价;–高:每日高价;-低价:每日低价;-收盘价:每日收盘价;-交易量:财务交易量、每日交易量。1) 分析变量:我们使用每日真实范围(TR)值(见方程式1)作为金融波动性的衡量指标。

地板
大多数88 在职认证  发表于 2022-6-11 04:59:51
每只股票的一系列波动率数据是使用财务报价得出的,如下所示:T Rt=max[(高位- Lowt),(Lowt- 壁橱-1) ,(高- 壁橱-1) (1)我们将主成分分析(PCA)应用于一组社交媒体变量,以获得一个时间序列,该时间序列包含所考虑情绪特征的大部分基本信息。PCA\\u SOCIAL\\u CHANGE被定义为通过应用PCA并从所考虑的社交媒体变量集中提取第一个主成分而获得的时间序列中的每日变化,如表1所示。主成分分析是一种维度缩减技术,我们用于特征提取。PCA允许将多个相关的共线变量减少到一个组件(或组件的特征集)。

7
mingdashike22 在职认证  发表于 2022-6-11 04:59:54
表一和表二列出了本工作中使用的特征。表一:社交媒体特征特征描述1看涨\\u强度积极情绪极性2看跌\\u强度消极情绪极性3牛市\\u负熊比1:24牛市得分\\u消息积极情绪量,消息数5熊市得分\\u消息消极情绪量,消息数量6 BULL\\u BEAR\\u MSG\\u看涨消息数量与BearishMessages数量之比7 TOTAL\\u SCANNED\\uMessages TOTAL messages,包括中性情绪8 LOG\\u BULL\\u RETURN LOG difference in daily volume of Boosh MESSAGES 9 LOG\\u BEAR\\u RETURN LOG difference in daily volume of BEAR MESSAGES 10 LOG\\u看涨日志difference in 4 and 511 LOG\\u BULL\\u BEAR\\u RATIO LOG RATIO in 4 and 512 LOG\\u BULL\\u MINUS CHANGE LOG daily difference in 313 TOTAL\\u SCANNED\\u MESSAGES\\u Differ daily Differ in 714 TOTAL\\u情绪MESSAGES\\u DIFF具有非中性极性的消息的每日音量差异15 PCA\\u SOCIAL\\uChange来自8、9、10、11、12、14和15IEEE 2的第一主成分2017年7月18日至20日在伦敦召开的电子计算会议,UKTable II:财务特征特征描述16开盘日开盘价17高点18低点19收盘价20成交量财务量,日交易量21 LOG\\u收益率对数收盘价的百分比变化22 LOG\\u收盘价23 LOG\\u高LOG日高价24 LOG\\u低LOG日低价25 VOLATILITY\\u 1 22和26 VOLATILITY之间差值的绝对值\\u 2 22和前一天2127 VOLATILITY之间差值的绝对值\\u 3 24和前一天的2128 TR最大值为25、26和2729 LOG\\u VOLUME\\u DIFF LOG daily difference in 2030 LOG\\u TR\\u DIFF LOG daily difference in 28B。

8
大多数88 在职认证  发表于 2022-6-11 04:59:57
信息盈余信息盈余[9]来自互信息,这是两个数据集之间相互依赖的度量。设我们为变量PCA\\u SOCIAL\\u CHANGE,它是通过应用PCA并从表I中定义的社交媒体变量集中提取第一个主成分而获得的时间序列中的每日变化,并设F为LOG\\u TR\\u DIFF,它是每日真实范围内每日差异的对数(见等式1)。如果序列S的加法提供了关于序列F运动的信息,那么可以说S和F之间存在依赖或互信息(mi)。然而,这种依赖是无方向性的;为了确定S导联F,S必须提供比基线M I(即非滞后)更多的滞后F系列信息。确定社交媒体功能系列Sl=0和财务功能系列Fl=0在同一天是否存在基线依赖关系,是确定S leadsor是否预测F的第一步。互信息告诉我们关于S的信息在多大程度上减少了F的不确定性。方程(2)显示了形式形式,我们试图通过对每个分布上两个序列的联合熵的对数进行二重积分来减少不确定性或增加信息。MI(S;F)=Z Zf(S,F)logf(S,F)fs(S)ff(F)ds df(2)需要将数据分组到存储箱中,以确定两个系列之间的互信息。这对于计算熵是必要的,因为在每个箱子s和f中观察实例i的概率构成了概率分布。箱子的数量取决于数据的大小;因此,我们的bin大小在每个功能上通常是相同的(即,每个安全性每年大约有365个推特和财务数据的每日实例)。

9
能者818 在职认证  发表于 2022-6-11 05:00:01
使用Sturge法则(见方程式3)计算箱子大小k,发现当用于计算M I算法中的各向异性时,该法则比可比方法更精确【15】。k=对数n+1(3)互信息然后在连续的每日时间间隔计算。通过找出l=i和l=0时的互信息之间的差异来计算时滞l=i时的信息增益,其中i是某一天的滞后,l=0对应于基线情况。信息盈余表示为M I的百分比,高于我们在给定时间段内的预期值。因此,如果我们从l=i到l=0,在平均MI上实现盈余,那么社交媒体时间序列S将领先F。信息盈余l=MI(S;F)l=i- MI(S;F)l=0MI(S;F)l=0×100(4)C.验证显著信息盈余为了验证信息盈余是否具有统计显著性,我们验证信息是否领先于尾随,并将获得的结果与通过随机排列的时间序列获得的结果进行比较。我们首先筛选盈余落后于领先的公司,通过识别股票,这些股票的日变化在事后会带来更多关于日F的信息(l=-i) 而不是在同一天(l=0)或前一天IEEE 3 | P a g计算会议201718-2017年7月20日|英国伦敦(l=i)。我们计算了前进档(事后)和后退档(事前)的MI,排除了事后MI大于事前MI的股票。其中滞后的MI小于系列回顾性前进的MI(即MIl=I<M Il=-i) ,我们可以断言,MI(S;F)落后于领先,因此不显著。然后对剩余符号进行100次随机排列。

10
kedemingshi 在职认证  发表于 2022-6-11 05:00:04
当α=0.05时,股票必须在95%的随机排列数据中表现出色,才能被视为有显著盈余。D、 聚类为了确定社会迹象可以预测财务波动的条件,我们使用聚类方法来确定社交媒体和财务变量的配置,这表明信息盈余较高。每个股票都是社交媒体和财务变量的载体。此外,还包括Information盈余的得分和描述其性质的特征(例如,获得的滞后的大小)。将社交媒体和财务变量配置相似的股票分组。通过检查集群的特征文件(即成分股特征的平均表示),我们可以识别金融动态的社会迹象,这些迹象表明信息盈余较高。包含许多显著滞后和高总体信息盈余的集群将使我们深入了解具有可预测波动性的股票特征的变量配置。我们使用k-means聚类,这是一种无监督学习算法,通过使用距离度量最小化每个集合S中实例之间的簇内平方和误差(WCSS),将实例划分为k个簇(见等式5)。argmin SkXi=1Xx∈锡克斯- uik(5)III.描述性统计以下描述性统计为我们的结果提供了背景。图1显示了纳斯达克和纽约证券交易所按市值分列的前250只股票的行业细分(即总共500只股票)。在这项工作的背景下,值得注意的是,纳斯达克通常比纽约证交所波动性更大。(a) a)纳斯达克(b)b)纽约证券交易所图1:交易所选定公司的行业细分。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-3 05:46