楼主: 可人4
1925 63

[量化金融] 复杂数据集中因果关系的度量及其在金融领域的应用 [推广有奖]

21
nandehutu2022 在职认证  发表于 2022-5-5 08:46:22
正则化对(线性)Geweke测量的影响可以忽略不计,结果与GCCA代码获得的结果具有可比性,主要区别在于我们的代码允许的滞后范围选择更灵活。对于[2]范围内的正则化值网格,岭回归的参数可以通过n倍交叉验证(见附录E)计算-40, · · · , 2-26]和内核大小在[2,··,2]范围内,或固定在预设水平,对结果没有明显影响。Transferentropy利用简单的直方图来估计分布。计算HSNCIC和执行p值测试的代码包含了Seth[25]编写的框架。对框架进行了分析,以适应一些新功能;在HSNCIC的参数选择中,排列测试的实现也从旋转变为实际排列[34],如下[25],其中内核的大小设置为中值样本间距离,正则性设置为10-3.我们的目标是在没有先验信息的情况下发现因果结构,并检测因果关系发生的滞后。这是通过应用所有三种因果关系度量来实现的,具有以下滞后集:{[1]- 10]}, {[1 - 20]}, {[1 - 5], [6 - 10], [11 - 15]}, {[1 - 3], [4 - 6], [7 - 9]}; 最后,所有四项指标均为单滞后{0,1,2,3,4}。这些范围用于线性和kernelisedGeweke的度量和HSNCIC,但不用于转移熵,在当前框架下,只有单个滞后可用。使用五组滞后,我们可以分析使用与变量“真实”动态对应的滞后不同的滞后范围的影响。表2显示的结果:滞后1的四个感兴趣指标的p值。

22
可人4 在职认证  发表于 2022-5-5 08:46:25
下面,我们分别给出每种方法的结论,同时给出两种Geweke的测量方法。Geweke的测量:两个Geweke的测量结果表现类似,这是预期的,因为数据是用线性依赖关系模拟的。对于存在因果方向的所有滞后范围(包括最大范围[1-20]),正确识别了因果关系。对于较短的范围{[1]- 5], [1 - 3] 对于单个滞后{0,1,2,3},这两个度量报告了所有现有因果方向的p值为零。这意味着这些测量能够精确地检测出存在因果方向的标签,包括滞后0,即瞬时耦合。然而,在排列数等于200且可接受水平为0.01的情况下,这两种方法仅检测到所需的因果关系,但无法拒绝0.05水平的一些虚假因果关系。转移熵:根据设计,这种方法一次只能分析一个滞后。它本身也是低的,由于这两个原因,当需要考虑大范围的滞后时,它将是无效的。此外,它不能用于瞬时耦合。为了检测这种情况,我们采用了交互信息方法。对于滞后{1,2,3},转移熵报告了所有相关因果方向的零p值。然而,它未能拒绝伪方向1→ 7,p值为0。01.对于滞后{0},在应用互信息的情况下,瞬时耦合x←→ X被正确识别,p值为零。HSNCIC:由于速度缓慢,HSNCIC对于最大范围的滞后是不切实际的。更重要的是,HSNCIC在包含超过一个滞后的任何滞后范围内的表现都不令人满意。

23
nandehutu2022 在职认证  发表于 2022-5-5 08:46:28
这是非常令人失望的,因为设计表明HSNCIC应该能够处理边信息和高维变量。即使是小范围[1]- -3] ,HSNCIC正确地只识别了x→ 兴奋。然而,当一次分析一个滞后时,它确实正确地识别了所有的因果关系,报告的p值为零。这表明,对于具有一个以上滞后或两个以上时间序列的数据,HSNCIC是不可靠的。HSNCIC也不是为检测瞬时耦合而设计的。表2。滞后1的四个测量值的p值。从左上到右下:Geweke测量(Gc)、核化Geweke测量(kG)、传递熵(TE)、HSNCIC(HS)。

24
何人来此 在职认证  发表于 2022-5-5 08:46:33
所有方法均正确检索到了所有LAG 1因果关系。1.0 0.0 0 0.49 0 0.49 0 0.49 0 0.0 0 0.49 0 0.49 0 0.49 0 0.41 0 0.0 0 0.78 0.0 0.0 0 0.0 0 0 0.0 0 0.0 0 0 0.0 0 0 0.0 0 0 0 0.0 0 0 0 0 0.0 0 0 0 0 0 0 0 0.0 0 0 0 0 0 0.78 0 0 0 0 0 0.0 0 0 0 0 0 0 0 0 0 0.0 0 0 0 0 0 0 0 0 0 0.78 0 0 0 0 0 0 0 0 0 0 0 0.0 0 0 0 0 0.0 0 0 0 0 0 0 0 0 0.0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0 0 0 0 0 0 0 0 0 0 0 0 0.0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0.63 0.68 0.87 0×kG ts1 ts2 ts3 ts4 ts5 ts6 ts7 ts8ts1×0.920 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6 ts7 ts8ts1×0.59 0.53 0.60 0.34 0.91 0.38 0.66ts2 0.48×0.860 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.82ts2 1.00×0.80 0.61 0.85 0.34 0.02 0.72ts3 0.90 0.95×0.180.59 0.47 0.21 0.19ts4 0.90 0.29 0×0.31 0.81 0.26 0.31ts5 0.75 0.59 0.77 0.14×0.71 0.85 0.46ts6 0.64 0.88 0.75 0.79 0×0.71 0.79ts7 0.38 0.13 0.75 0.24 0.75 0×0.60ts8 0.90 0.55 0.46 0.73 0.78 0×从本实验中,我们得出结论,具有线性和高斯核的Geweke测度提供了最佳性能,不容易出现滞后错误,而且似乎最实用。另外两个指标,转移熵和HSNCIC,在一次分析一个滞后时提供了良好的性能。在第3.2.2节中。

25
可人4 在职认证  发表于 2022-5-5 08:46:36
我们展示了[9]中一项测试的结果,该测试调查了在引入线性和非线性依赖关系的数据中区分直接因果关系和非直接因果关系的能力。我们参考[25]了解适用于线性格兰杰因果关系和HSNCIC的各种测试结果。我们测试了所有四种方法,并在很大程度上复制了[25]的结果;然而,我们使用了较少数量的排列和实现,并且我们获得了较低的真实因果方向的接受率,尤其是对于HSNCIC。从所有这些测试中,我们得出结论,在大多数情况下,线性因果关系可以通过所有测量来检测,但当存在更多滞后或维度时,HSNCIC除外。Granger因果关系可以检测一些非线性用途,尤其是当它们可以用线性函数近似时。在不同滞后存在因果效应的情况下,转移熵会产生更多虚假的因果关系。HSNCIC无法接受最大维度;在一些实验中,这种方法在三维和四维问题上表现良好;在另一些例子中,三维空间被证明太多了。可能最重要的结论是,参数的选择最终成为了格韦克衡量标准的关键。对于一些测试,比如前面描述的模拟八个时间序列数据,内核的大小并不起重要作用,但在某些情况下,内核的大小至关重要,可以检测因果关系。然而,没有适用于所有类型数据的内核大小。3.2.2. 非线性多变量示例我们的第二个示例遵循Ambrard[9]提出的示例,涉及一个具有线性和非线性因果关系的系统。

26
可人4 在职认证  发表于 2022-5-5 08:46:40
除了介绍推广格兰杰因果关系的好处外,这个例子还展示了考虑旁侧信息对区分直接原因和间接原因的潜在影响。时间序列的真实动态如下所示:xt=axt-1+ x、 tyt=byt-1+dxt-1+ y、 tzt=czt-1+eyt-1+ z、 t(27),其中参数的选择方式如下:a=0.2,b=0.5,c=0.8,d=0.8,e=0.7,变量x、 t,y、 t,z、 平均值和单位方差为零的皮重i.i.d.高斯分布。通过设置,我们知道我们有以下因果链x→ Y→ z(x对y的非线性效应),因此,存在间接因果关系x→ z、 我们计算了核化Geweke测度Gx→赞德Gx→z |评估因果关系。我们重复实验500次,每次产生一个长度为500的时间序列。我们选择二者的叠加,即我们考虑滞后范围[1]- -2]. 为了评估使用kernelised而不是线性Granger因果关系的效果,我们对高斯核和线性kernelk(x,y)=xTy进行了每个实验。使用线性核几乎等同于使用线性Geweke测度。我们为Gx获得了一组500个测量值→赞德Gx→z | y,每一个都以高斯和线性角运行。结果如图2-4所示。正如所料,Gx→z | y没有检测到任何因果关系,无论选择了哪个内核。当不考虑任何附带信息时,我们应该看到间接因果关系x→ z被捡起;然而,这仅适用于高斯核的核化Geweke和HSNCIC。由于相关性是非线性的,线性的Geweke测度没有检测到它。图2。

27
mingdashike22 在职认证  发表于 2022-5-5 08:46:45
测量值的直方图Gx→z(红脸),Gx→z | y(蓝色面),使用线性核(即,等效的Granger因果关系)使用核化的Geweke进行计算。0 0.01 0.02 0.03 0.040500100150200250Gx->z(蓝色)和Gx->z | | y(红色)频率计数(总数500)图3。测量值的直方图Gx→z(红脸),Gx→z | y(蓝面),使用高斯核,通过核化的Geweke计算。-0.1 0.1 0.2 0.3 0.4 0.5 0.6 0.7020406080100120140Gx->z(蓝色)和Gx->z | | y(红色)频率计数(总数500)图4。测量值的直方图Gx→z(红脸),Gx→z | y(蓝脸),用希尔伯特-施密特标准化条件独立性标准(HSNCIC)计算。0.20.40.6 0.8 1 1.2 1.4 1.6 1.8 205101520253035Gx->z(蓝色)和Gx->本文定义的z | | y(红色)频率计数(总计500)传递熵不允许旁侧信息,因此,我们得到的结果是一个与零显著不同的分布(图5)。图5。测量值的直方图Gx→z(红脸),Gx→z | y(蓝面),用转移熵计算。0.8 1.2 1.4 1.6 1.8 205101520253035Gx->z(蓝色)仅频率计数(总数500)4。应用格兰杰因果关系是作为一个计量经济学概念引入的,多年来,它主要用于经济应用。在大约30年的相对较少的承认之后,因果关系的概念开始在许多科学学科中获得重大意义。格兰杰因果关系及其推广和替代公式变得流行起来,尤其是在神经科学领域,但在气候学和生理学领域[29,35–39]。

28
何人来此 在职认证  发表于 2022-5-5 08:46:48
该方法已成功应用于这些领域,尤其是神经科学领域,这是因为这些领域中常见数据的特点,而且高斯分布和/或线性相关性的假设通常是合理的[40]。金融时间序列通常不是这样。4.1. 在金融和经济的应用中,有许多工具专门用于建模依赖,主要用于对称依赖,如相关性/协方差、协整、copula,以及在较小程度上的互信息【41–44】。然而,在我们希望降低问题维度的各种情况下(例如,选择要投资的工具子集,为因子模型选择变量子集等),因果关系结构的知识有助于选择最相关的维度。此外,使用因果时间序列(或贝叶斯模型中的贝叶斯先验或图形模型中的双亲[1,45])进行预测有助于预测“未来而非过去”。金融数据通常与生物学、物理学等领域中最常用的分析数据具有不同的特征。在金融领域,典型的情况是,研究人员只有一个长的、多变量的序列可供使用,而在生物学领域,尽管实验可能很昂贵,但很可能会有很多实验,而且通常,可以合理地假设它们是独立分布的(i.i.d.)。在神经科学等学科中经常被认为是合理的线性依赖或高斯分布假设,通常被认为对金融时间序列无效。此外,许多研究人员指出,平稳性通常不适用于此类数据。

29
大多数88 在职认证  发表于 2022-5-5 08:46:51
由于因果关系方法在大多数情况下假定平稳性,因此放宽这一要求显然是未来研究的一个重要方向。在下面的章节中,我们描述了将因果方法应用于两组财务数据的结果。4.1.1. 长期以来,经济学家一直在研究利率和通货膨胀。关于同一国家或地区的通货膨胀与名义或实际利率之间的关系,有大量研究,其中一些研究利用了格兰杰因果关系工具(例如,[46])。在本实验中,我们分析了相关值,即美国消费者价格指数(U.S.CPI)和伦敦银行同业拆借利率(Libor)利率指数。伦敦银行同业拆借利率通常被银行和其他金融机构用作基准利率,是一个重要的经济指标。它不是一种与任何国家相关的货币措施,也不反映任何制度性规定,例如,与美联储设定利率的情况相比。相反,它反映了设定利率的银行对风险的某种程度的评估。因此,我们问,我们是否检测到这两个经济指标中的一个在统计意义上导致另一个?我们对从汤森路透获得的1986年1月31日至2013年10月31日的月度数据进行了分析。用于该分析的实现和参数值与模拟示例中的类似(第3.2节)。我们使用了线性和高斯角的核化Geweke测度。岭回归的参数处于[2,···,2]或asa中值范围内的预设水平。我们调查了大小分别为25、50、100和250的时间窗口。

30
何人来此 在职认证  发表于 2022-5-5 08:46:55
在较长的窗口(250个点)观察到了最具统计意义和可解释性的结果,其中Geweke的测量值和核化Geweke的测量值清楚地表明了美国CPI的方向→ 伦敦银行同业拆借利率。对于较短的时间窗,获得显著p值的次数要少得多,但结果与较长时间窗的结果一致。滞后1(即一个月)对250天窗口的依赖性最强,滞后2、7、8、9的依赖性较弱,但中间滞后没有明确的方向。在图6-9中,我们报告了用于评估滞后1、2和7因果关系的p值,以及显示p值和Geweke测量值的散点图。所有的图表都经过缩放,以显示相同范围内的p值[0,1]。我们可以清楚地看到总的趋势,即因果关系的值越高,相应的p值越低。在图6中,我们观察到,当使用高斯核的核化Geweke测度进行评估时,滞后一个月的美国CPI时间序列会导致统计意义上的一个月Liborin。该方向因果关系假设的p值允许我们在大多数情况下接受(而非拒绝)该假设的显著水平为0.01,而p值在大多数情况下几乎为零。我们还可以观察到,一些因果关系测量值高达0.2,这可以转化为模型解释力的大约0.18的改进[47]。应用线性核(图7)可以得出因果关系和p值的度量模式有些相似,但这两个方向的分离程度较小。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-22 06:22