楼主: nandehutu2022
965 27

[量化金融] 非线性因果关系检测的信息论度量: [推广有奖]

11
kedemingshi 在职认证  发表于 2022-6-24 04:30:55
我们使用6个等级的直方图来报告结果,这是一个分区大小,对于所分析的每种货币都会产生良好且有意义的结果。非参数熵估计的一个特点是传递熵测度的绝对尺度意义有限;要检测因果关系,必须考虑相对位置。Marschinski和Kantz[18]提出的一个简单技术是有效传递熵(ETE),它是通过从观察到的传递熵中减去在独立时间序列上计算的平均传递熵得到的,这破坏了时间顺序,从而破坏了任何可能的实用性。我们采用shu’ing方法,从相同域上独立的shu’ed时间序列中产生50个零假设转移熵值,其中不包含因果关系。通过计算shu’ed传输熵图的平均值和标准偏差,我们估计因果结果的显著性,即结果与shu’ed平均结果之间的距离,通过shu’ed标准偏差进行标准化:Z:=TE-‘TEshu’eσshu fl.(10)这与结果位于零因果关系样本分布右尾的程度相对应,因此结果不太可能是偶然的。因此,Z分数图代表了在非饱和情况下过量转移熵的重要性。我们计算公式10中线性和非线性结果的Z分数。为了证明在实际中使用这些技术检测因果关系的合理性,我们首先使用预测因果关系的耦合时间序列验证该方法。A、 合成几何布朗运动我们通过在方向耦合随机游走后生成合成数据来验证该方法。

12
mingdashike22 在职认证  发表于 2022-6-24 04:30:58
首先,我们按照离散几何布朗运动(GBM)生成一个驱动序列:Xt+1=(1+u)Xt+σXtηt,(11),其中η是正态分布的随机噪声ηt~N(0,1)和u和σ分别是漂移系数和扩散系数。然后我们产生一个相依序列Yt,它是X和第二个独立GBM过程X的线性组合,相依强度由某个滞后长度k上的耦合常数α决定:Yt=(1- α) Xt公司-k+αXt-k、 (12)B.合成耦合Logistic图我们使用耦合Logistic图生成非线性耦合时间序列。这个系统可以用两个平稳的微分方程来表示;独立序列由一般更新函数f(X)给出的差分方程定义:f(Xt)=Xt+1=rXt(1- Xt)(13),其中Xt是时间t时X的值,r是一个参数,实际上定义了系统的动态状态。继Hahs和Pethel[23]之后,我们取r=4,因此函数是无序演化的。然后,我们引入一个依赖于第一个的第二个映射,其形式为:Yt+1=(1- α) rYt(1- Yt)+αg(Xt)(14),其中α∈ [0,1]是交叉相似性或耦合强度,g(x)是一个耦合函数,可能会产生不同的动态效应。我们遵循Boba等人【24】和Hahs&Pethel【23】在耦合函数中的选择:g(Xt)=(1- )f(Xt)+f(f(Xt))(15)其中 ∈ [0,1]表示耦合强度,描述了Yt+1对f(f(Xt))的依赖程度。应该注意的是,与几何布朗运动相反,logistic映射是一个确定性的反白质系统,因此f(f(Xt))等于Xt+2。这种预期影响的程度取决于 参数我们遵循Hahs&Pethel的选择 = 0.4.

13
kedemingshi 在职认证  发表于 2022-6-24 04:31:01
实际上,随着α的增加, 信息传递的方向不太明确,因为Yt包含更多关于X.IV未来值的信息。使用合成数据验证为了验证检测因果关系的自回归和信息论方法,我们将其应用于计算线性和非线性耦合时间序列生成的合成数据的传递熵,增加耦合强度。A、 线性过程因果关系验证我们使用自回归和信息论方法,计算从驱动序列到相依序列的方向信息传递,以及反向信息传递,用于方程11和12定义的GBM行走线性耦合系统。图1显示了从α=0.0到α=0.5的耦合强度结果。对于每个耦合强度,在2500个时间步上模拟一个数据集。这两种技术都应用于每个数据集,用X→ Y的Yand→ X绘制在单独的轴上。在信息论方法中,我们使用每个维度分位数为6类的直方图计算传递熵。我们生成多个合成耦合随机游动,计算每个实现的传递熵和Z分数,并报告平均值。分位数箱是为每个实现独立生成的。我们观察到,使用更细粒度的分区,即使用更多的箱子,可以增加对相同数据的传输熵的估计。然而,对因果关系的选择并不影响验证因果关系的最终分析;当考虑显著性而不仅仅是数值转移图时,观察到了等效的结果。如图1所示,两种方法之间的定性对应关系清晰可见,定量结果相似。

14
kedemingshi 在职认证  发表于 2022-6-24 04:31:04
此外,通过在X方向观察到较大的传递熵和Z分数,可以准确地检测信息传递的单向性→ Y和相反方向的小值。B、 非线性过程因果关系验证我们使用方程13、14和15中的非线性耦合logistic映射系统的自回归和信息论方法,计算从驱动序列到相依序列以及反向的方向信息传递。在信息论方法中,我们再次使用直方图计算传递熵,每个维度分为6类,为每个实现独立生成箱子。图2显示了2500个合成数据点的平均传递熵结果。我们观察到,对于这个系统,线性方法无法检测因果关系;它没有发现显著的信息传递,无法呈现预期的暴露-反应关系,也表明存在轻微的反向因果关系。相比之下,信息论方法产生的结果更好地代表了系统中不断增长的耦合强度关系和因果关系的方向。然而,对于较大的α值,该技术还可以检测从Y到X的因果关系,其影响比线性情况下更大。我们参考耦合函数g(x)来解释这一点,其中涉及更新函数f(x)的重复应用;从方程13可以看出,f(f(Xt))等于Xt+2so,对于较大的α,yt将包含越来越多的Xt未来信息。

15
能者818 在职认证  发表于 2022-6-24 04:31:07
事实上,当耦合强度接近α=1时,观察到的从X到Y的传递熵开始减小,因为Y中存在更多关于其未来演化的信息。这些验证实验的结果表明,信息论方法在检测因果信号方面具有优势,无需模型,因此能够检测更复杂的非线性模式的关系。C、 因果信号随滞后长度的衰减作为最终验证,我们探讨了当关系滞后未知时,这些方法在检测耦合时间序列中的信号时的性能。一般而言,预计因果关系应在最接近真实信号滞后的时间滞后处最紧密,并随着所考虑的时间滞后的增加而逐渐衰减。然而,因果关系的复杂性,尤其是在时间序列之间存在任何反馈的情况下,表明也可能存在多模式因果关系,以不同的滞后时间运行。我们使用方程11和12中定义的耦合GBM系统来创建固定滞后L=6的耦合,然后进行自回归和信息论分析,以检测从k=1到k=35的时间段的传递熵。信息理论方法再次使用直方图,将每个维度划分为6类。结果如图所示。我们观察到两个有趣的特征。首先,在滞后k比因果关系的真正滞后L短的地方,可以看到对峰值的惊人预期。其次,在预期滞后处出现了一个明显的峰值,其衰减缓慢且不完全。

16
大多数88 在职认证  发表于 2022-6-24 04:31:10
我们通过com0.0 0.1 0.2 0.3 0.4 0.5耦合强度0.00.20.40.60.81.01.2传递熵(bits)X YNon线性TELinear TE0.0 0 0.1 0.2 0.3 0.4 0.5耦合强度0.00.20.40.60.81.01.2传递熵(bits)Y X非线性TELinear TE0.0.1 0.2 0.3 0.4 0.5耦合强度0100020003000000显著性(Z分数)X TEYNon线性TELinear TE0.0 0.1 0.2 0.3 0.4 0.5耦合强度01000200030004000显著性(Z分数)Y x非线性TELinear TEFIG得出的TE显著性。1: 证明了线性和非线性传递熵方法都能检测线性耦合合成数据的因果关系。根据方程式11和12,计算了2500个合成随机游走过程数据点的曲线图。非线性传递熵使用每个维度6类的分位数直方图计算。还绘制了两种方法的每个结果的Z分数。我们在非因果方向Y上观察到一个小但非零的基线转移熵→ 十、 这解释了在X方向计算的传递熵的系统性高估→ Y这种过度估计的大小会随着柱状图仓的数量而增加。0.0 0.1 0.2 0.3 0.4 0.5耦合强度0.00.20.40.60.8传递熵(bits)X YNon线性TELinear TE0.0 0 0.1 0.2 0.3 0.4 0.5耦合强度0.00.20.40.60.8传递熵(bits)Y X非线性TELinear TE0.0 0.1 0.2 0.3 0.4 0.5耦合强度02507510125150175 X Y0.0.1 0.2 0.3 0.4 0.5耦合强度0255075100125150175 Y XFIG中TE的显著性(Z分数)显著性。2: 证明从等式14和15生成的合成数据中的非线性因果关系仅通过非线性方法检测。

17
kedemingshi 在职认证  发表于 2022-6-24 04:31:14
这些图是在综合耦合逻辑图过程的2500个数据点上计算的,其中 = 0.4. 非线性传递熵是使用每维6类的分位数直方图计算的。还绘制了两种方法的每个结果的Z分数。我们注意到,从α=0,5开始,使用这两种方法可以检测到其他方向的信息传输;当α接近1时,这一数值会增加。在α=0的情况下,与去折叠情况下观察到的转移熵进行比较。在增加时间间隔的限制下,5 10 15 20 25 30 35 LAG=k0.00.20.40.60.81.0传递熵(bits)TE=0非线性TELinear TE0 5 10 15 20 25 30 35 LAG=k0.00.20.40.60.81.0传递熵(bits)TE=0.8非线性TELinear TE0 5 10 15 20 25 30 35 LAG=K01000200030000000显著性(Z分数)非线性TELinear TE0 5 10 15 20 30 35 LAG=K0100020004000000显著性(Z分数)非线性线性TEFIG。3: 证明这两种方法都能用最大传递熵识别真实滞后L=6。非线性转移熵是使用分位数二元直方图计算的,每个维度有6类,超过2500个点。还绘制了两种方法的每个结果的Z分数。在非因果情况下,我们观察到非零转移熵α=0,随时间滞后k增长。这可能解释了系统对X方向计算的转移熵的过度估计→ Y这种过度估计的大小随着直方图箱的数量而增加。k、 信息论方法检测因果关系,即使数据中没有耦合;我们注意到,在这种情况下,有效的传递熵度量可能会表现得更好,其中减去平均零因果关系传递熵可以更好地估计真实的信息传递[18]。

18
大多数88 在职认证  发表于 2022-6-24 04:31:16
重要的是,这两种技术在真正的因果时间滞后时都显示出明显的峰值,自回归技术显示出更大的显著性,尽管即使在虚假的滞后时也可以观察到这一点。观察到的长滞后因果关系增加的趋势可能是由于增加滞后排除数据点的方式所致;例如,对于k=35,我们在计算传递熵时丢弃了集中的35个数据点。五、 结果真实数据证实了信息论方法能够检测线性和非线性信号,我们应用该技术研究了社会媒体情绪对加密货币价格的影响。我们还应用线性方法来比较线性或非线性动力学是否支配任何因果关系。我们估计,信息传输将在24个月的时间窗口内进行,从最早的市场数据到2018年9月,将向前推进两周。价格是指综合交易所按小时计算的综合收盘价(见附录A 2)。社交情绪是通过对前一小时推特和股票推特的NLP分析来估计的;我们将这种情绪量化为前一小时积极信息的总和。在数据的早期,很少有几个小时并没有消息;在这些情况下,我们将前一个小时的资金向前推,假设在这些情况下,情绪不会下降到中性。为了处理数据中的非平稳性,我们取时间t和t的值的对数之间的差值- 1、这种差异适用于两个时间序列。在聚合原始情感数据时,时间尺度的选择涉及到一种权衡;时间尺度太小,没有足够的信息来估计情绪,但时间尺度无法捕捉时间序列的动态。

19
kedemingshi 在职认证  发表于 2022-6-24 04:31:20
我们假设情绪和价格之间的因果信号在亚小时的时间尺度上运行;hourlyaggregation是数据中可用的最小时间段,因此使用这种情绪聚合。传递熵是在多个向后看的24个月窗口中计算的,这些窗口以两周的步幅传递所有可用数据。对于信息理论方法,可以观察到,使用等宽箱的直方图进行分析会根据所选箱的数量给出不同的结果。具体而言,将样本空间的轴划分为奇数个箱子不会对该数据产生显著影响,这表明信息主要来自分布的中间峰值。然而,我们注意到,分位数分类法的使用避免了这个问题,发现奇数和偶数分类法都可以提供类似的结果,这表明使用分位数分类法计算转移熵有一个关键的好处。因此,在本分析中,我们使用每个维度六个类将样本空间划分为分位数箱,并在第四节中验证了这一选择。非线性方法的直方图箱使用每种货币的完整数据集计算一次,然后在所有窗口中应用。在选择合适的分区时,不可避免地会引入进一步的偏差。通过为每个窗口计算适当的箱子,无法在窗口之间直接比较结果。

20
kedemingshi 在职认证  发表于 2022-6-24 04:31:23
然而,随着时间的推移,消息量的增长意味着选择大小能够捕获值的完整分布的箱子也会带来偏差,因为这样的箱子更适合后面的月份而不是前面的月份。此外,由于直方图划分的粒度也会影响传递熵值,我们对每个窗口分别进行显著性测试,以报告任何因果关系,计算Z分数并跨窗口和货币进行比较。我们使用k=1小时的时滞来报告最重要的窗口。使用更长的时间滞后进行分析显示,与此数据相比,因果信号较弱。这提供了支持真实因果动力学在亚小时尺度上运行的假设的证据。我们报告了线性和非线性传递熵的结果,使用多维直方图计算,每个维度使用6个分位数类别的箱子。transferentropy图和Z分数是在每个24个月的窗口中独立计算的,在整个数据集中,每种货币的BIN生成一次,并用于每个窗口。这种选择可以最清楚地发现情绪和价格之间的因果关系。图4、图5、图6和图7显示了所调查的四种加密货币的信息传输曲线图。对于BTC,在图4中,我们检测到一个强大的因果信号,在toBTC价格和反向情绪的两个方向上,其规模大致相似。图5中的LTC显示了与BTC类似的模式,尽管它在信息传递方向上不那么模棱两可,在情感方向上的重要性toprice始终大于反向。我们注意到,与其他货币相比,Z分数显示出更大的整体重要性。XRP,图。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-24 15:22