楼主: nandehutu2022
961 27

[量化金融] 非线性因果关系检测的信息论度量: [推广有奖]

  • 0关注
  • 5粉丝

会员

学术权威

74%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
69.2521
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24246 点
帖子
4004
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-20

楼主
nandehutu2022 在职认证  发表于 2022-6-24 04:30:21 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Information-theoretic measures for non-linear causality detection:
  application to social media sentiment and cryptocurrency prices》
---
作者:
Z. Keskin and T. Aste
---
最新提交年份:
2019
---
英文摘要:
  Information transfer between time series is calculated by using the asymmetric information-theoretic measure known as transfer entropy. Geweke\'s autoregressive formulation of Granger causality is used to find linear transfer entropy, and Schreiber\'s general, non-parametric, information-theoretic formulation is used to detect non-linear transfer entropy.   We first validate these measures against synthetic data. Then we apply these measures to detect causality between social sentiment and cryptocurrency prices. We perform significance tests by comparing the information transfer against a null hypothesis, determined via shuffled time series, and calculate the Z-score. We also investigate different approaches for partitioning in nonparametric density estimation which can improve the significance of results.   Using these techniques on sentiment and price data over a 48-month period to August 2018, for four major cryptocurrencies, namely bitcoin (BTC), ripple (XRP), litecoin (LTC) and ethereum (ETH), we detect significant information transfer, on hourly timescales, in directions of both sentiment to price and of price to sentiment. We report the scale of non-linear causality to be an order of magnitude greater than linear causality.
---
中文摘要:
时间序列之间的信息传递是通过使用非对称信息理论度量,即传递熵来计算的。Geweke的Granger因果关系自回归公式用于寻找线性转移熵,Schreiber的一般非参数信息论公式用于检测非线性转移熵。我们首先根据合成数据验证这些度量。然后,我们应用这些措施来检测社会情绪和加密货币价格之间的因果关系。我们通过将信息传递与通过随机时间序列确定的零假设进行比较来进行显著性检验,并计算Z分数。我们还研究了非参数密度估计中的不同划分方法,这可以提高结果的显著性。在截至2018年8月的48个月内,我们对四种主要加密货币,即比特币(BTC)、ripple(XRP)、litecoin(LTC)和以太坊(ETH)的情绪和价格数据使用这些技术,在每小时的时间尺度上检测到情绪对价格和价格对情绪的重要信息传递。我们报告非线性因果关系的规模比线性因果关系大一个数量级。
---
分类信息:

一级分类:Physics        物理学
二级分类:Data Analysis, Statistics and Probability        数据分析、统计与概率
分类描述:Methods, software and hardware for physics data analysis: data processing and storage; measurement methodology; statistical and mathematical aspects such as parametrization and uncertainties.
物理数据分析的方法、软硬件:数据处理与存储;测量方法;统计和数学方面,如参数化和不确定性。
--
一级分类:Physics        物理学
二级分类:Physics and Society        物理学与社会
分类描述:Structure, dynamics and collective behavior of societies and groups (human or otherwise). Quantitative analysis of social networks and other complex networks. Physics and engineering of infrastructure and systems of broad societal impact (e.g., energy grids, transportation networks).
社会和团体(人类或其他)的结构、动态和集体行为。社会网络和其他复杂网络的定量分析。具有广泛社会影响的基础设施和系统(如能源网、运输网络)的物理和工程。
--
一级分类:Quantitative Finance        数量金融学
二级分类:General Finance        一般财务
分类描述:Development of general quantitative methodologies with applications in finance
通用定量方法的发展及其在金融中的应用
--

---
PDF下载:
--> Information-theoretic_measures_for_non-linear_causality_detection:_application_t.pdf (464.4 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:因果关系 信息论 非线性 Quantitative significance

沙发
能者818 在职认证  发表于 2022-6-24 04:30:26
非线性因果关系检测的信息论方法:应用于社会媒体情绪和加密货币价格。Keskin1、2和T.Astein计算机科学系和区块链技术中心,伦敦大学学院,高尔街,WC1E 6EA,伦敦,联合王国物理和天文学系,伦敦大学学院,高尔街,WC1E 6EA,伦敦,英国(日期:2019年6月18日)时间序列之间的信息传递是通过使用称为传递熵的不对称信息理论度量来计算的。Geweke的格兰杰因果关系自回归公式用于确定线性转移熵,Schreiber的一般、非参数、信息论公式用于检测非线性转移熵。我们首先用合成数据验证这些测量值。然后,我们应用这些方法来检测社会情绪和加密货币价格之间的因果关系。我们通过将信息传递与通过shu’ed时间序列确定的无效假设进行比较来进行显著性检验,并计算Z分数。我们还研究了非参数密度估计中的不同划分方法,这可以提高结果的显著性。在截至2018年8月的48个月内,我们对四种主要加密货币,即比特币(BTC)、ripple(XRP)、litecoin(LTC)和以太坊(ETH)的情绪和价格数据使用这些技术,在每小时的时间尺度上检测到情绪对价格和价格对情绪的重要信息传递。我们报告非线性因果关系的规模比线性因果关系大一个数量级。一、 导言因果关系是自然科学中的一个核心概念,通常被理解为描述某个过程在时间上的演变对第二个过程有一些可观察的影响。

藤椅
能者818 在职认证  发表于 2022-6-24 04:30:29
然而,这种因果效应的性质很难精确描述和量化。在确定某些变化是否真的会导致另一个变化[1,2]方面有很长的历史,尤其是如果影响不是确定性的,并且只在总体上观察到的话。在本文中,我们考虑一种因果关系的统计形式,这种因果关系可以在相互依赖的时间序列中观察到,在驱动序列发生一些变化后,依赖序列中的响应更有可能随之发生。信息传递的方向是通过要求原因减少影响来实现的。这一概念由维纳于1956年首次提出[3],格兰杰于1969年正式提出[4],格兰杰随后因其在时间序列分析方面的工作而获得诺贝尔经济学纪念奖。最简单地说,所谓的格兰杰因果关系(Granger Causality)描述了依赖序列中的响应可以用第一个序列的变化来解释的程度;或者,更确切地说,通过考虑另一个序列的先验序列所提供的信息,可以更好地预测给定序列的程度。如果该响应是驱动信号的线性倍数,则该关系被描述为线性耦合。相反,如果响应遵循信号的其他函数,则关系是非线性的。在现代投资组合理论中,投资者通常通过计算资产类型之间的相关性来构建投资组合,以在给定的风险水平下实现回报最大化[5]。在寻找超额回报的过程中,常常利用QuantitativeApproach来检测跨时间序列的预测信号。在理想情况下,通过了解一个价格的变动,我们可以推断出第二个价格的变动。

板凳
可人4 在职认证  发表于 2022-6-24 04:30:33
对于投资者来说,只需知道第一次波动预示着第二次波动,在本文中,我们探讨了两种有希望的技术在检测替代数据和加密货币价格之间的预期信号方面的有效性。2008年,中本(Nakamoto)描述并应用了通过分布式账本管理的完全对等数字货币的概念,并将这种货币命名为“比特币”。该提案及其后续实施引起了技术专家、经济学家、自由主义者和未来主义者的注意,并利用区块链技术催生了大量的适应性【7】,这些技术被称为加密货币。这些加密货币的交易已经变得非常普遍,甚至对那些没有身份认证的散户投资者来说也是如此,随着人们对这些货币的兴趣不断扩大,交易量也在显著增长。加密市场的特点是高波动性,这似乎反映了投资者态度的变化。加密货币在传统经济中的使用仍然有限,可以合理地假设,价格在一定程度上是由投机动力驱动的,与任何作为交换媒介的效用或任何创收过程无关。因此,在社交媒体市场情绪和加密货币价格的衡量之间,应该观察到与股市中观察到的类似且更显著的预测效果。因此,我们假设投资者对未来价格的情绪可能会通过投机影响短期价格变动。本文对这一假设进行了检验。传统市场(traditionalmarkets)和加密市场(crypto markets)的文献中探讨了社交媒体情绪与价格之间的关系。例如,Bollen等人。

报纸
kedemingshi 在职认证  发表于 2022-6-24 04:30:36
[8] 表明moodof推特消息可以作为市场情绪的代表,这可以显示出与美国股市价格走势的线性关系。Zheludev和Aste[9]还使用自然语言处理(NLP)对推特数据进行了情绪分析,以表明情绪与标普500公司发行的一系列工具的价格变动显著相关。Souza和Aste使用推特消息来模拟市场情绪,并表明非线性预测关系可能比线性预测关系更为重要【10】。特别是在加密货币市场,本文的一位作者最近将信息理论技术应用于网络理论的方法,以将市场结构描述为一个复杂系统[11]。这证明市场形成了一个复杂的、因果相关的网络,将多种货币的价格和情绪联系起来。因此,假设加密货币价格取决于价格和市场情绪的先验值,格兰杰因果关系检验可以检测XT的过去值对Yt未来值的影响【4】。这可以使用向量自回归(VAR)模型进行计算,该模型描述了在某个时间滞后k,将过去的X值包括在内,会在多大程度上减少X与Y回归中的平方残差之和,从而估计时间t时社会情绪的预测效果- VAR方法进行回归分析,仅限于变量之间的线性关联。为了研究非线性效应,我们可以采用信息论中发展的技术。许多用于比较分布的流行信息理论度量,如互信息,都是对称的,因此无法模拟从X到Y的定向信息传输。

地板
可人4 在职认证  发表于 2022-6-24 04:30:39
因此,为了将格兰杰因果关系推广到非线性情况,我们采用了由Chreiber[12]形式化的度量,即传递熵,它能够捕捉信息传递的大小和方向。传递熵产生于条件互信息的表述;当以变量的过去值为条件时,它量化了这些过去值在预测依赖变量时提供的不确定性的减少。这为多元分布中变量之间的统计因果关系建模提供了一种自然的方法。在一般公式中,传递熵是一种无模型统计,能够度量随机变量之间信息的时间方向传递,因此提供了一种度量信息传递的非对称方法。正如本文所述,转移熵自然是格兰杰因果关系的推广。事实上,已经证明,对于多变量、极大分布的统计数据,其关系因此是线性的,事实确实如此;格兰杰因果关系和转移熵是等价的。虽然发展相对较晚,但信息理论方法已成功地用于跨学科研究,以检测不可能采用干预方法的信息传递。例如,在神经科学领域,Vicente等人【14】发现,与自回归Granger因果关系公式相比,转移熵是检测电生理通信中因果关系的一种更好的方法。在气候学方面,Liang从第一原理导出了一个线性信息流度量,并用它表明厄尔尼诺倾向于稳定印度洋偶极子【15】。该分析还发现了另一个方向的因果影响;印度洋偶极子被证明能放大厄尔尼诺振荡。Stips等人进一步成功地使用了该技术。

7
kedemingshi 在职认证  发表于 2022-6-24 04:30:42
[16] 为了证实最近的联合任务显示出全球平均温度异常的单向因果关系,但在古气候时间尺度上,这一方向是相反的,温度驱动着冰层。最后,在金融方面,Kwon&Yang对股票指数之间的信息传递进行了测量,结果表明,美国的信息传递最大,亚太地区的信息传递最大[17]。特别是,标普500指数被证明是其他股指的最强驱动力。Marschinski和Kantz【18】在早期的一项相关工作中定义并使用有效传递熵来量化金融市场中的传染。同样,Tungsong等人[19]在Diebold&Yilmaz[20]之前的工作基础上发展了量化金融市场之间的溢出效应、概括方法和估计金融系统之间互联性的时间演化。论文的其余部分组织如下。在第二节中,我们简要介绍了格兰杰因果关系(线性因果关系测度)和转移熵(非线性因果关系测度)的背景知识。在第三节中,我们详细描述了用于量化和验证线性和非线性因果关系的方法,以及用于生成线性和非线性因果耦合合成序列的技术。第四节证明,在对合成数据进行测试时,这些方法能够正确地检测线性和非线性大小写中的因果关系。有关加密货币价格和情绪之间因果关系的realdata结果,请参见第五节。第五节“病毒报告结论和展望”。二、背景使用两种不同的方法计算时间序列之间的统计因果关系。第一种假设为线性,并采用向量自回归技术来估计了解驾驶时间序列有助于预测相关序列的程度。

8
何人来此 在职认证  发表于 2022-6-24 04:30:45
第二种方法比较独立案例和联合案例之间的互信息差异,以描述预测相关序列的成功程度。当通过考虑驱动变量的最新值来提高可预测性时,统计因果关系就成立了。A、 线性因果关系通过将时间t的值Ytat表示为不同滞后序列的贡献之和,使用线性方程:Yt=mXk=1β(Y)kYt,将时间序列建模为自回归-k+t、 (1)式中,β(Y)kis为一般系数项,且这是多余的。线性回归估计系数参数β(Y)k,使残差平方和最小化。为了检测某些二次序列的值是否预测Y的未来值,我们可以将方程1与:Yt=mXk=1β0(Y)kYt进行比较-k+mXk=1β0(X)kXt-k+t、 (2)如果第二次回归中的残差明显小于第一次回归中的残差,我们确定分布Y是由X引起的。如果这一点成立,那么一定会有一些信息从X传输到Y。继Geweke[21]之后,我们可以通过以下方式表示信息传输:TEX→Y=对数风险值(t) 风险值(t), (3) 其中,我们采用转移熵表示法(TE),遵循Barnett等人[13]的结果,表明Granger因果关系等效于多元正态分布的转移熵。B、 非线性因果关系为了检测非线性因果关系,我们采用了信息论的方法。方程3衡量滞后变量中的附加信息减少模型残差方差的程度。

9
能者818 在职认证  发表于 2022-6-24 04:30:48
传递熵通过考虑不确定性而不是方差来扩展这一概念。采用香农信息测度[22],我们可以用:H(X)=-Xxp(x)log p(x),(4),其中H(x)称为分布的香农熵,p(x)表示x=x的概率。这可以通过第二个变量来确定条件熵:H(Y | x)=H(x,Y)- H(X)。(5) 如果两个随机变量共享信息,则交互信息由以下公式给出:I(X;Y)=H(Y)- H(Y | X)。(6) 以两个变量为条件的Y的熵为:H(Y | X,Z)=H(X,Y,Z)- 因此,条件互信息为:I(X;Y | Z)=H(Y | Z)- H(Y | X,Z)。(8) 现在,对于每个滞后k,我们可以描述来自Xt的信息传输-kto Ytin根据以下条件互信息:T E(k)X→Y=I(Yt;Xt-k | Yt-k) =H(Yt | Yt-k)-H(Yt | Xt-k、 年初至今-k) 。(9) 这表示在考虑Y和X的过去值时,与单独考虑Y的过去值相比,预测Y的不确定性的分辨率。考虑到方程5和7,我们可以用四个单独的联合熵项来表示单个滞后k的传递熵,如方程9所示。根据方程式4,可使用概率分布的非参数密度估计从数据中估计这些值。对于多变量非线性统计,等式9和3重合[13]。三、 方法通过比较联合向量空间{Yt,Yt中残差的方差,利用有序最小二乘回归计算线性传递熵-k、 Xt公司-k} 对独立向量空间{Yt,Yt-k} ,遵循方程式3。为了检测非线性传递熵,我们执行非参数密度估计来计算方程5和7中的联合熵项。

10
大多数88 在职认证  发表于 2022-6-24 04:30:51
使用多维直方图方法估计密度,其中向量空间的划分选择会影响传递熵的计算。在本文中,我们采用了一种分区方法,据我们所知,这种方法在熵估计方面是新的,并且证明了它对改变分区的粗糙度是鲁棒的。具体而言,我们在边缘使用基于分位数的装箱方法,这会导致每个维度的装箱边缘包含相同数量的数据点。为了以这种方式划分样本空间,我们选择每个维度并独立计算bin边,以包含大致相等数量的数据点。这些用于构建多维直方图以估计概率分布。我们观察到分位数箱子的大小比同等大小的箱子更好,因为概率分布函数中的大梯度能够更好地被捕获,而无需通过重新划分分区引入额外信息。在估计香农熵时,分区的粗糙度直接影响数值,由于获得了更多关于分布的信息,因此分区直方图在相同数据上返回更大的熵值。在计算传递熵时,应消除这种影响,但我们观察到,更多的箱子通常会导致相同数据的更大的传递熵,从而放大信号和噪声。因此,我们在本文中采用了一种节约的方法,使用少量与有效分辨率兼容的BIN来捕获信息传输。我们测试了每个维度3到8个级别的粒度划分,在每个案例中都发现了可比较的结果。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-21 23:48