楼主: 可人4
865 63

[量化金融] 复杂数据集中因果关系的度量及其在金融领域的应用 [推广有奖]

41
nandehutu2022 在职认证  发表于 2022-5-5 08:47:33 |只看作者 |坛友微信交流群
这种方法的重要方面是,它取决于嵌入参数的正确选择,因此,不允许分析任意标签的信息传输。它还涉及额外的计算成本,对于低维数据可能会更慢。我们在几个数据集上测试了Trentool,发现对样本大小的要求比原始直方图的要求更高,计算速度也更慢,结果具有可比性。然而,朴素直方图在更高维度上没有很好的性能[35],在这种情况下,建议采用最近邻法。非平稳性:这是未来研究中最重要的领域之一。所有被描述的度量都在一定程度上受到无法处理非平稳数据的影响。原始线性公式中的格兰杰因果关系是唯一明确假设平稳性(更准确地说,是协方差平稳性[5,7])的度量,渐近理论就是针对这种情况发展起来的。Geweke在[57]中描述了仍然可以在标准框架内分析的非平稳过程的特殊情况,以及使线性格兰杰因果关系框架适用于被积或协整过程的相应文献[58]。在所有这些情况下,需要知道非平稳性的类型,这是新偏差的潜在来源[58]。用于计算格兰杰因果关系的GCCA工具箱[59]提供了一些工具,用于检测非平稳性,并在一定程度上用于管理非平稳性[29]。在Granger因果关系的向量自回归设置中,可以运行参数测试来检测非平稳性:ADF测试(增强Dickey–Fuller)和KPSS测试(Kwiatkowski、Phillips、Schmidt、Shin)。

使用道具

42
可人4 在职认证  发表于 2022-5-5 08:47:36 |只看作者 |坛友微信交流群
为了管理非平稳性,《GCCA工具箱手册》[31]建议分析较短的时间序列(窗口)和差分,尽管这两种方法都可能带来新问题。还建议对数据进行降级和降级,对于经济数据,也可以进行季节性调整。本文中描述的其他度量没有明确假定平稳性;然而,一些关于平稳性的假设对于方法的正确运行是必要的。Schreiber在假设一个被分析的系统可以被平稳的马尔科夫过程近似的情况下发展了传递熵[26]。在实践中,如果时间序列高度非平稳,可能会影响传递熵,因为概率密度估计的可靠性会有偏差[39],但由于参数变化缓慢,非平稳性不一定是一个问题[60]。根据我们的知识,对于其他两种方法,即基于核的Geweke测度和HSNCIC,估计收敛的结果仅适用于静态数据。然而,对于i.i.d.数据的过于严格的情况,HSNCIC的渐近结果已经得到了发展[61]。givenby[62]的核岭回归结果是针对阿尔法混合数据得出的。参数选择:每种方法都需要参数选择;与第5.2节所述型号选择有关的问题。所有方法都需要选择滞后数(滞后顺序),而核方法还需要选择核、核参数(核大小)和正则化参数。在高斯核的情况下,核大小对数据平滑的影响可以理解为如下[63,64]。高斯核k(x,y)=exp(-kx- yk/σ)对应于由输入特征的所有可能单项式组成的有限维特征图。

使用道具

43
nandehutu2022 在职认证  发表于 2022-5-5 08:47:39 |只看作者 |坛友微信交流群
如果我们将阿克内尔表示为泰勒级数展开式,使用基1,u,u,u。。。,随机变量X和Y可以用RKHS表示为:Φ(X)=k(X,·)~ (1,cX,cX,cX,…)TΦ(Y)=k(Y,·)~ (1,cY,cY,cY,…)因此,核函数可以表示为:k(x,y)=1+cxy+cxy+cxy+。。。(29)交叉协方差矩阵将包含所有高阶协方差的信息:∑XY~0 0 0 0 0 0 0 0 0 cCov[X,Y]ccCov[X,Y]ccCov[X,Y]。。。0 ccCov[X,Y]ccCov[X,Y]ccCov[X,Y]。。。0 ccCov[X,Y]ccCov[X,Y]cCov[X,Y]。。。0。。。(30)根据Fukumizu等人[15]的说法,HSNCIC度量不依赖有限数据中的核。然而,其他参数仍然需要选择,这显然是一个缺点。核化的Geweke测度通过交叉验证显式优化参数,而HSNCICF则专注于将分布嵌入具有任何特征核的RKHS中。此外,对于AIVE直方图方法,转移熵需要选择估计密度和分块大小的方法。另一个重要方面是滞后顺序和滞后数量的选择。我们观察到第3.2.1节。这两个Geweke的测量值对滞后的选择不敏感,我们能够正确地识别在使用较小和较大滞后范围的情况下的因果关系。然而,其他两项措施表现不同。HSNCIC通常无法在一次分析更多滞后的情况下观察因果关系,但在单个滞后的情况下表现良好。在一个滞后与“真实”滞后相去甚远的情况下,转移熵表现出虚假的因果关系。然而,对于结构更复杂的实际数据,滞后的选择可能对所有测量都很重要(见第5.2节)。

使用道具

44
可人4 在职认证  发表于 2022-5-5 08:47:42 |只看作者 |坛友微信交流群
模型选择对于核心度量,我们观察到模型选择是一个重要问题。一般来说,核的选择影响所考虑的函数类的平滑度,而正则化器的选择控制着函数平滑度和函数误差之间的权衡。欠拟合可能是正则化器过大和核大小过大的结果(在阿加西核的情况下);相反,过度匹配可能是正则化器太小和内核大小太小的结果。其中一种有助于模型选择的方法是交叉验证[9]。这种方法特别受欢迎,并且对于脊灰过程中选择核大小和正则化子非常方便(见附录E)。考虑到非平稳数据,拟合参数似乎是合理的;然而,我们得出结论,交叉验证在计算意义上过于昂贵,无法提供预期的效益。模型选择(以及参数选择)的另一个方面是确定适当的滞后顺序。对于内核方法,增加滞后数并不会增加问题的维数,这在显式表示数据的方法中是可以预期的。如第2.1.3节所述,在核化Geweke测度的情况下,增加滞后数会降低问题的维数,因为数据是用(n)表示的-p) ×(n)-p) 两两比较,其中n是观察数,p是滞后数。另一方面,增加滞后的数量将减少自由度的数量。对于将较小的权重分配给较大滞后的核方法,这种下降将不那么明显(高斯核就是这样,但线性核则不是这样)。

使用道具

45
nandehutu2022 在职认证  发表于 2022-5-5 08:47:45 |只看作者 |坛友微信交流群
除了交叉验证,文献中建议的选择滞后顺序的其他方法都是基于对自相关函数或偏自相关的分析[27,65]。我们认为需要对模型选择进行更多的研究。5.3. 不仅在应用因果关系度量时,而且在测试这些度量时,可以生成虚假因果关系的测试条件。第3.1节中描述的排列测试涉及所有类型的依赖性的破坏,而不仅仅是因果依赖性。在实践中,这意味着,例如,如果由于因果关系的存在而导致的预测改进与由于间接耦合而导致的改进相混淆,那么瞬时耦合的存在可能会导致对因果推理的错误推断。然而,简单性是支持排列测试的决定性因素,而不是其他方法。几位作者[9,18,25]建议在子样本上重复排列测试以获得可接受性,这是我们在实际应用中不赞成的方法。使用接受率的基本原理是,通过计算多个子样本的多个置换测试,减少样本大小所造成的重大损失将得到弥补。我们认为,在初始样本较大且平稳性假设合理的情况下,这可能是合理的,但我们的数据并非如此。相反,我们决定报告重叠运行窗口的p值。这使我们能够额外评估结果的一致性,并且不需要我们为所有窗口选择相同的识别率。5.4. 展望在讨论中,我们强调了许多仍然需要更多研究的领域。

使用道具

46
可人4 在职认证  发表于 2022-5-5 08:47:48 |只看作者 |坛友微信交流群
核化的Geweke测量、转移熵和HSNCIC比原始Granger因果关系更好地检测非线性相关性,但没有改善其另一个缺点:非平稳性。岭回归是在线学习中一种方便的工具,它可能有助于处理非平稳性[9]。这显然是一个值得探索的领域。表3。

使用道具

47
mingdashike22 在职认证  发表于 2022-5-5 08:47:52 |只看作者 |坛友微信交流群
总结了不同措施的主要特点。测量属性线性与非线性Ranger因果关系假设线性;线性数据的最佳方法,非线性的最坏情况线性和非线性数据传输熵线性和非线性数据传输熵线性和非线性数据NCIC线性和非线性数据如果低维区分直接和间接因果关系通过比较有和没有边信息的度量在一定程度上改变因果关系通过比较测量有侧信息和无侧信息的传递熵在一定程度上不能(考虑部分传递熵)HSNCIC,因为它被设计来调节旁侧信息虚假的因果关系游荡者因果关系易受影响的Kernelised Geweke的易受影响的转移熵易受影响的NCIC易受影响的好的数值估计器Granger因果关系Yeskenelised Geweke的yestransfer熵noHSNCIC YesOnStationAriger因果关系v.敏感的;使用ADF(增强Dickey–Fuller)进行测试,KPS(Kwiatkowski、Phillips、Schmidt、Shin)使用加窗、差分、大滞后的Geweke比较敏感;在线学习是一种很有前途的方法。传递熵有点敏感NCIC有点敏感参数的选择Ranger因果关系滞后核化Geweke核,核大小,正则化参数,滞后;使用交叉验证传递熵滞后、分块大小(如果使用直方图方法)HSNCIC内核、内核大小、正则化参数、滞后对于金融数据的应用至关重要,需要了解更多关于测量具有多种依赖性的时间序列中的因果关系的信息。我们不知道有任何研究能解决这个问题。我们认为,这应该首先通过分析合成模型来实现。

使用道具

48
nandehutu2022 在职认证  发表于 2022-5-5 08:47:55 |只看作者 |坛友微信交流群
这里研究的一个可能方向是在应用因果测量之前使用过滤来准备数据。一种可能性是基于频率的分解。一种不同类型的过滤被分解为负冲击和正冲击,例如,Hatemi-J提出了一种基于Ranger因果关系的“非对称因果关系度量”[66]。建议研究的第三个主要方向是建立因果网络。有大量关于基于干预的因果关系因果网络的文献,用图形模型描述。基于预测的因果关系已较少用于描述因果网络,但这种方法正变得越来越流行[29,46,67,68]。成功地建立一个复杂的因果网络需要特别注意次要信息以及直接和间接原因之间的区别。这是一个非常有趣的研究领域,在金融领域有着各种应用,尤其是投资组合转换、因果套利投资组合、投资风险管理等。基于机器学习理论和计量经济学的因果关系方法。在分析了它们的理论性质和实验结果后,我们得出结论,没有一种测量方法明显优于其他测量方法。然而,我们相信,基于岭回归的kernelisedGeweke测度是最实用的,对线性和非线性因果结构,以及二元和多元系统都表现相对较好。对于这两个真实数据集,我们能够确定因果方向,证明了方法和时间窗口之间的一些一致性,并且不符合经济原理。这两个实验指出了一系列需要解决的局限性,以便更广泛地将这些方法应用于金融数据。

使用道具

49
何人来此 在职认证  发表于 2022-5-5 08:47:57 |只看作者 |坛友微信交流群
此外,这两个数据集都不包含更高频率的数据,使用高频率的数据可能会产生额外的并发症。另一个我们仅简要提及的问题是使用任何因果关系度量的相关性和实用性。说谎在很大程度上是一个科学领域的问题。归根结底,正是研究人员的解释和他们对数据的信心,才有可能将一种关系标记为因果关系,而不仅仅是统计上的因果关系。然而,虽然我们分析的度量不能发现真正的原因,也不能明确区分真因果关系和假因果关系,但它们在实践中仍然非常有用。格兰杰因果关系经常被用于经济模型中,自2003年格兰杰获得诺贝尔奖以来,格兰杰因果关系得到了更广泛的认可。关于在金融或经济学中使用格兰杰因果关系的非线性推导的文献很少。我们认为,一方面,它有巨大的潜力,另一方面,还有许多问题有待回答。虽然我们预计其中一些问题可以通过在线学习方法和数据过滤来解决,但需要更多关于非平稳性、噪声数据和最佳参数选择的研究。附录A。

使用道具

50
kedemingshi 在职认证  发表于 2022-5-5 08:48:02 |只看作者 |坛友微信交流群
求解岭回归正则化成本函数为方程(9):β*= argminβmnXi=p+1((wi-圆周率-1) Tβ- 现在解方程(9)得到:L=mnXi=p+1((wi-圆周率-1) Tβ- xi)+γβTβ=m(Wβ- x) T(Wβ)- x) +γβTβ==m(βtwβ- 2xTWβ+xTx)+γβTβLβ=m(2WTWβ- WTx)+2γβ=0<=><=> WTWβ*+ γmβ*= WTx<=><=> β*= (WTW+γmIm)-1WTx(32),其中IMI是一个m×m单位矩阵。重量,β*, 被称为原始解,下一步是引入对偶解权重。WTWβ*+ γmβ*= WTx<=> β*=γmWT(x- Wβ*) (33)对于某些人来说也是如此*∈ Rn,我们可以这样写:β*= WTα*(34)从上面的两组方程中,我们得到:α*=γm(x)- Wβ*)<=> γmα*= 十、- Wβ*= 十、- WWTα*<=><=> (WWT+γmIm)α*= x(35)这给出了双重权重的理想形式:α*= (WWT+γmIm)-1x(36),取决于正则化参数γ。B.函数分析和希尔伯特空间的背景以下是定义和定理[13,18,69]。所有向量空间都在R上,而不是c上;然而,它们都可以在C中推广,几乎不需要修改。定义8(内积)设F是R上的向量空间。函数h·,·iF:F×F→ R被认为是Fif的内积:(i)hf+f,fi=hf,fi+hf,fi,对于所有的f,f,f∈ F(ii)hαF,fi=αhf,对于所有F,F∈ F、 α∈ R(iii)hf,fi=hf,fi代表所有f,f∈ F(iv)hf,fi≥ 0和hf,fi=0当且仅当f=0(37)定义9(希尔伯特空间)如果h·,·i是f上的内积,如果f与内积所诱导的度量是完备的,则对(f,h·,·i)称为希尔伯特空间[70]。我们将使用的泛函分析的基本概念之一是连续线性算子:对于两个向量空间,F和G,R上,一个映射T:F→ 如果G满足所有α的T(αf)=αT(f)和T(f+f)=T(f)+T(f),则称G为(线性)算子∈ R、 f,f∈ F

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-22 01:34