复杂数据集中因果关系的度量及其在金融领域的应用 - 第2页 - 外文文献专区

11楼

发表于 2022-5-5 08:45:48

我们的目标是找到描述给定数据集S的最佳线性函数f。这个想法类似于线性Geweke的度量：从替代模型的比较中推断因果关系。特别是，建立了四种不同点之间的函数关系模型：（1）XT和它自己的过去之间的函数关系；（2）在xt和xt的过去之间，yt；（3）在XT和过去的XT，zt之间；（4）在xt和xt，yt，zt的过去之间。为了对所有四个模型有一个统一的表示法，引入了一个新变量w，用WISYMBOLING表示xi本身，或（xi，yi），或（xi，zi）或（xi，yi，zi）。因此，数据之间的函数关系可以写为：对于所有t，xt’f（wt-pt-1），其中wt-pt-1是从时间t之前的p滞后中采集的样本，例如WT-pt-1=（重量）-p、 wt-p+1，wt-1). 例如，在w代表所有三个时间序列的情况下：-pt-1=（xt）-p、 yt-p、 zt-p、 xt-p+1，yt-p+1，zt-p+1，xt-1，yt-1，zt-1). 一般来说，p可以代表一个有限的滞后，但对于任何实际情况，都可以合理地假设一个有限的滞后，因此，wt-pt-1.∈ 十、其中，如果w=X，则通常为d=p，如果w=（X，y），则为d=2p；如果w=（X，y，z），则为d=2p+kp。最小二乘回归（如前面讨论的线性格兰杰因果关系）涉及寻找面积值权重向量β，例如xt\'^xt=（wt-pt-1） Tβ，即选择权向量β，以最小化平方误差。β的维数取决于w的维数；这是一个标量，在w=x的最简单情况下，x是单变量的。众所周知，最小二乘回归的缺点包括：样本量小，效果差，当数据线性独立且过度拟合时，没有解决方案。

12楼

mingdashike22

发表于 2022-5-5 08:45:51

这些问题可以通过在成本函数中增加额外的成本，惩罚系数权重过大的情况来解决。这种代价被称为正则化器[21]或正则化项，它在均方误差和权重向量的平方范数之间引入了一种折衷。正则化成本函数现在是：β*= argminβmnXi=p+1（（wi-圆周率-1） Tβ- xi）+γβTβ，（9）m=n- p表示更简洁的符号。与最小二乘回归权重类似，岭回归（在附录A中获得）的解可以写成原始权重β的形式*:β*= （WTW+γmIm）-1WTx，（10）其中我们使用矩阵符号W=（（wp）T，（wp+1）T。。。，（wn）-pn-1） T）T，或者换句话说，一个包含wp，wp+1，…，行的矩阵。。。，wn-pn-1.x=（xp+1，x2，t，…，xn）t；im表示一个大小为m×m的单位矩阵。然而，我们希望能够应用核方法，它要求数据以内积的形式表示，而不是以单个数据点的形式表示。如附录A所述，权重β可以表示为数据点的线性组合：对于某些α，β=WTα。第二种表示法得到了对偶解α*, 这可以用WWTand来表示，它依赖于正则化子γ：α*= （WWT+γmIm）-1x，（11）这是我们可以应用内核技巧的地方，这将允许我们将内核引入上述回归设置。为此，我们引入了核相似函数k，并将其应用于W的元素。通过对W的每一行核函数的求值建立的Gram矩阵表示为Kw:（Kw）i，j=k（wi-圆周率-1，wj-pj-1）对于i，j=p+1···n.（12）核函数k具有相关的线性算子kw=k（·，w）。再中心定理（附录B）允许我们将最小化（9）的结果表示为核算子的线性组合[9]。

13楼

何人来此

发表于 2022-5-5 08:45:55

最佳预测现在可以按照以下方式用双重权重来编写：^xt=kw（wt-pt-1） T（千瓦+γ毫米）-1x。（13）均方预测误差可以通过对整个实现集进行平均来计算：varK（Xt | Wt-1） =mlXj=1（xj- ^xj）=m（Kwα*- x） T（Kwα）*- x），（14）其中^xjdenotes为xj的固定值。与方程（5）中的Geweke指数类似，我们现在使用上述框架定义了Geweke因果关系和瞬时耦合的核指标：GY→XkZ=logvarK（Xt | Xt-Zt，1-1）瓦克（Xt | Xt）-1，Yt-Zt，1-1） GY·XkZ=logvarK（Xt | Xt-Zt，1-1）瓦克（Xt | Xt）-1，Yt，Zt-1）（15）以这种方式将Geweke的因果关系度量扩展到非线性情况。2.1.4. Hilbert–Schmidt归一化条件独立性准则方差可用于分析二阶相关性，在高斯分布变量的特殊情况下，零协方差相当于独立性。1959年，Renyi[22]指出，为了评估随机变量X和Y之间的独立性，可以使用如下定义的最大相关性：S（X，Y）=supf，g（corr（f（X），g（Y））（16）其中f和g是任何Borel可测函数，f（X）和g（Y）对其具有确定的正相关性。最大相关性具有Renyi为适当的相关性度量所假设的所有属性；最重要的是，当且仅当变量X和Y独立时，它等于零。然而，最大相关性的概念并不实用，因为甚至可能不存在可以达到最大值的函数fand g[22]。然而，这个概念已经被用作一些基于内核的依赖性方法的基础，例如内核约束协方差[23]。本节需要一些功能分析和机器学习的背景知识。

14楼

nandehutu2022

发表于 2022-5-5 08:45:58

为了完整性，Hilbert–Schmidt范数和算子、张量积和均值元素的定义见附录B和下文[13,15]。交叉协方差算子类似于协方差矩阵，但为特征图定义。定义3（互协方差算子）互协方差算子是线性算子∑XY:HY→ Hx与联合测量PXY有关，定义为：∑XY:=EXY[（φ（X）- uX）（φ（Y）- uY）]=EXY[φ（X） φ（Y）]- uX uY（17）我们使用符号的地方对于张量积，μ表示平均嵌入（定义见附录B）。应用于Hx的两个元素的交叉协方差算符对协方差进行了恒压：hf，∑XYgiHX=Cov（f（X），g（Y））（18）符号和假设如下[13,18]：HXdenotes由严格正的核kX:X×X诱导的再生核希尔伯特空间（RKHS）→ R、与HYand kY类似，X是X上的一个随机变量；Y是Y上的一个随机变量，（X，Y）是X×Y上的一个随机向量。我们假设X和Y是拓扑空间，可测性是关于相关σ定义的-场地。边际分布用PX，py表示，而（X，Y）的联合分布用PXY表示。期望值EX、Ey和EXY分别表示对PX、Py和PXY的期望值。为了确保HX和Hy分别包含在L（PX）和L（PY）中，我们只考虑随机向量（X，Y），因此期望值EX[kX（X，X）]和EY[kY（Y，Y）]是有限的。正如互协方差算子与协方差相关，我们可以定义一个与偏相关相关的算子：定义4（归一化条件互协方差算子[15]）使用互协方差算子，我们可以用以下方式定义归一化条件互协方差算子：VXY | Z=∑-1/2XX∑XY- ∑XZ∑-1/2ZZ∑ZY∑-1/2Y Y（19）Gretton等人。

15楼

kedemingshi

发表于 2022-5-5 08:46:01

[13] 说明对于足够丰富的RKHS（我们所说的“足够丰富”是指普适的，即X上具有上确界范数的连续函数意义上的稠密[24]），交叉协方差算子的零范数等价于独立性，可以写成：⊥⊥ Y<==> ∑XY=0（20），其中0表示空运算符。这种等价性是使用希尔伯特-施密特独立性标准（HSIC）作为独立性度量的前提（有关HSIC的信息，请参阅附录C）。文献[15]表明，归一化条件交叉协方差算子和条件独立性之间存在类似于（20）的关系，可以写成：X⊥⊥ Y|Z<==> V（XZ）（yz）|Z=0（21），其中由（yz）和（XZ）表示扩展变量。因此，有人建议将条件互协方差算子的希尔伯特-施密特范数作为条件独立性的度量。使用归一化算子的优点是，边缘算子对它的影响小于非归一化算子，同时保留了所有关于依赖性的信息。这与相关性和协方差之间的差异有关。定义5（Hilbert–Schmidt归一化条件独立性准则（HSNCIC）我们将HSNCIC定义为归一化条件互协方差算子的平方Hilbert–Schmidt范数，V（XZ）（Y Z）| Z:HSNCIC:=kV（XZ）（Y Z）|ZkHS（22），其中k·Khsde指出了附录B中定义的算子的Hilbert–Schmidt范数。对于样本S={（x，Y，Z），…，（xn，yn，zn）}，HSNCIC有一个估计量，它既是向前的，又有良好的收敛性[15,25]。如附录D所示，可以通过以下步骤确定所有成分的经验估计值来获得：首先确定均值元素^m（n）x和^m（n），并使用它们确定经验互协方差算子∑（n）XY。

16楼

能者818

发表于 2022-5-5 08:46:04

随后，使用∑（n）XY，以及以相同方式获得的∑（n）xx和∑（n）Y，定义经验规范化互协方差算子的∑（n）XY。注意，vxy要求反转∑Y和∑XX；因此，为了确保可再验证性，添加了正则化子nλIn。下一步是从^V（n）XY、^V（n）XZand和^V（n）ZY构造估计器^V（n）XY |Z。最后，构造^V（n）zy的希尔伯特-施密特范数的估计如下：HSNCICn:=tr[r（XZ）r（yz）- 2R（XZ）R（yz）RZ+R（XZ）RZR（yz）RZ]（23），其中tr表示矩阵的轨迹，RU=KU（KU+nλI）-而KU（i，j）=k（ui，uj）是一个语法矩阵。该估计器取决于正则化参数λ，而正则化参数λ又取决于样本大小。当反转有限秩运算符时，正则化是必要的。2.1.5. Transfer EntropyLet us现在引入了一种替代的非线性信息论因果关系度量方法，该方法被广泛使用，并为我们提供了与以前方法的独立比较。2000年，Schreiber建议将因果关系作为一种信息传递，从信息理论的角度来衡量。他将这种测量称为“转移熵”[26]。转移熵已经成为许多物理学家和生物学家的热门话题，关于转移熵在神经科学中的应用有大量文献。我们参考[27]了解一个最先进的工具箱，它可以预测传递熵。Max Lungarella等人在[28]中对转移熵和其他测量变量时间序列因果关系的方法进行了比较，包括扩展Granger因果关系、非线性Granger因果关系、可预测性改进和两个相似性指数。Ambrard等人对Granger因果关系和定向信息之间的关系进行了详细的回顾。

17楼

mingdashike22

发表于 2022-5-5 08:46:08

[10] ，而从网络理论的角度来处理这个话题，请参考toAmblard和Michel[29]。转移熵被设计用来测量P（Xt | Xt）与广义马尔可夫性质的偏离-1，Yt-1） =P（Xt | Xt）-1). 从双变量情况下格兰杰因果关系的定义（1），即忽略边信息{Zt}，我们可以看到格兰杰非因果关系应该意味着零转移熵（Barnett等人[30]证明了高斯变量的线性相关性和forGeweke的格兰杰因果关系公式）。转移熵与香农熵以及香农互信息相关，并且可以根据香农熵进行分解：定义6（互信息）假设U、V是概率分布PU（ui）、PV（vi）和联合分布PUV（ui、vi）的离散随机变量。然后，互信息I（U，V）定义为：I（U，V）=Xi，jPU（ui，vj）logPUV（ui，vj）PU（ui）PV（vj）=H（U）- H（U | V）（24）与H（U）=-PiPU（ui）log PU（ui）香农熵和H（U | V）=Pi，jPUV（ui，vj）logPV（vj）PUV（ui，vj）香农条件熵。对于独立随机变量，互信息为零。因此，对交互信息的解释是，它可以量化随机变量之间缺乏独立性，特别吸引人的是，它以非线性的方式进行量化。然而，作为一种对称测量，互信息不能提供任何关于依赖方向的信息。包括方向信息在内的互信息的自然扩展是传递熵。Schreiber认为，香农熵测度族是静态概率分布的性质，而转移熵是对多个系统的推广，并根据转移概率定义[26]。我们假设X，Y是随机变量。

18楼

何人来此

发表于 2022-5-5 08:46:12

如前所述，Xt代表点t处的值，Xt代表点t之前的值集合。定义7（传递熵）传递熵TY→Xis定义为：TY→X=H（Xt | Xt-1) - H（Xt | Xt）-1，Yt-1）（25）转移熵可以推广到多元系统，例如[30]定义条件转移熵→X | Z=H（Xt | Xt，Zt）- H（Xt | Xt，Yt，Zt）。在本文中，我们将只在两个变量的情况下计算转移熵。这是因为计算已经涉及到对三个变量（Xt、Xt、Yt）联合分布的估计，对于我们在金融应用中使用的时间序列长度，估计更多变量的联合分布是不切实际的。3.测试3。1.排列测试首先让我们强调，在一般情况下，之前引入的因果关系度量不应用作绝对值，而应用于比较。虽然我们观察到，平均而言，增加耦合强度会增加因果关系的值，但除非数据是以线性相关性和小噪声生成的，否则结果会有很大的偏差。因此，我们需要一种评估措施重要性的方法，作为评估因果关系本身重要性的方法。为了实现这个目标，我们将使用置换测试，遵循[9,18,25]中的方法。置换检验是指一种统计显著性检验，在这种检验中，我们使用随机置换来获得检验统计量在无效假设下的分布。我们希望比较分析数据和“随机”数据的因果关系测量值，并得出结论，前者显著更高。我们认为，破坏时间顺序也应该破坏任何潜在的因果关系，因为统计因果关系依赖于时间的概念。

19楼

kedemingshi

发表于 2022-5-5 08:46:15

因此，我们在保持x和z的顺序不变的情况下，创建了Hby的分布。更准确地说，让π。。。，πnr可以是一组随机排列。然后，我们考虑yπj（t），而不是yt，得到一组测量值GYπj→X | | zt可以用作零假设GY的估计量→X | | Z.只有在大多数排列中，基于shuf fled（代理）数据的因果关系度量值小于原始数据的因果关系度量值时，我们才会接受因果关系假设。这通过定义如下的p值进行量化：p=nrnrXj=11（GYπj→X | | Z>GY→X | | Z）（26）根据使用的排列数量，我们建议接受显著性水平等于0.05或0.01的因果关系假设。在我们的实验中，我们报告了重叠移动窗口的单个p值或一组p值。后者在分析噪声和非平稳数据时特别有用。在没有太多可用数据的情况下，我们不认为使用任何类型的二次抽样（如[9,18,25]所建议的）就测试的威力而言是有益的。3.2. 模拟数据测试3。2.1. 线性二元示例在将这些方法应用于实际数据之前，谨慎的做法是验证它们是否适用于具有已知且简单依赖结构的数据。我们在一个数据集上测试了这些方法，该数据集包含八个时间序列，在不同的滞后和一些瞬时耦合下具有相对简单的因果结构。我们使用这四种方法试图捕捉依赖结构，并找出哪些标签显示了依赖性。通过首先从阿加西分布中生成一组八个时间序列（相关矩阵如表1a所示）来模拟数据。

20楼

mingdashike22

发表于 2022-5-5 08:46:19

随后，将一些序列移动一个、两个或三个时间步，以获得以下“因果”关系：x←→ xat Lag0，即两个变量的瞬时耦合，x→ xat滞后1，x→ xat滞后1，x→ xat-Lag2，x→ xat滞后3，x→ xat滞后1，x→ xat滞后2，x→ xat滞后1。网络结构如图1所示，而因果关系出现的滞后时间如表1b所示。数据的长度是250。表1。模拟数据的依赖结构。（a）用于生成测试数据的相关矩阵；（b）滞后于真正的相关性发生的时间，解释为列变量导致行变量。1.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 1 1 0.1 1 1 0.1 1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.0.7 0.0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 1 0.1 0.1 1 1 0.1 1 1 0.1 1 1 0.1 1 0.1 0.1 0.1 0.1 0.1 1 0.1 1 0.1 0.1 0.1 0.1 0.1 1 0.1 1 0.1 0.1 0.1 0.1 0.1 1 1 1 1 0.1 0.1 0.1 0.1 1 1 1 0.1 0.1 1 0.1 0.1 1 1 1 1 1 1 0.1 0.7 0.7 0.7 1（a）ts1 ts2 ts3 ts4 ts5 ts6 ts7 TS8 ts1×0ts2 0×ts3×-1ts4 1×ts5×-1-2-3ts6 1×-1-2ts7 2 1×-1ts8 3 2 1×（b）图1。八个模拟时间序列之间因果关系的方向性。绿线代表因果关系，箭头表示方向；红线表示瞬时耦合。TS1TS2TS3TS4TS5TS6TS7TS8为了本文描述的实验，我们使用了来自多个来源的代码：我们为核化Geweke的度量和传递熵开发的Matlab代码，Granger因果关系GCCA的开放访问Matlab工具箱[31,32]，以及Sohan Seth[25,33]提供的开放访问Matlab代码。为了计算Geweke测度和核化Geweke测度，我们使用了相同的代码，前者使用线性核，后者使用高斯核。

[量化金融] 复杂数据集中因果关系的度量及其在金融领域的应用 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群