楼主: 可人4
867 63

[量化金融] 复杂数据集中因果关系的度量及其在金融领域的应用 [推广有奖]

51
nandehutu2022 在职认证  发表于 2022-5-5 08:48:05 |只看作者 |坛友微信交流群
在本文的其余部分中,我们使用标准的符号约定tf:=T(f)。下列三个条件是等价的:(1)线性算子T是连续的;(2) T在零处是连续的;(3)T是有界的[71]。这个结果,以及后面给出的Riesz表示定理,是再生核Hilbert空间理论的基础。应该强调的是,虽然我们使用的算子,如平均元素和互协方差算子,是线性的,但它们所作用的函数通常不是线性的。线性算子的一个重要特例是线性泛函,它是算子T:F→ R.定理2(Riesz表示定理)在希尔伯特空间F中,对于某些F,所有连续线性泛函[72]的形式为h·,fi∈ F.在附录A中,我们使用了“内核技巧”,但没有解释为什么它是允许的。下面给出的解释是代表定理。该定理指的是损失函数L(x,y,f(x)),它描述了预测f(x)和观测y在点x处的差异成本。与损失L和数据样本S相关的风险RL,S被定义为预测函数f的平均未来损失。定理3(再输入定理)[69]设L:x×y×R→ [0, ∞) 是凸损失,S:={(x,y),…,(xn,yn)}∈ (X×Y)nbe一组观察结果和RL,SDE记录相关风险。此外,设F是X上的RKHS。

使用道具

52
mingdashike22 在职认证  发表于 2022-5-5 08:48:09 |只看作者 |坛友微信交流群
然后,对于所有λ>0,存在唯一的经验解函数,我们用fS,λ表示∈ F、 满足等式:λkfS,λkF+RL,S(fS,λ)=inff∈FλkfkF+RL,S(F)(38)此外,还存在α、·αn∈ R、 使得:fS,λ(x)=nXi=1αik(x,xi),对于x∈ 下面的X(39),我们给出了希尔伯特-施密特标准化条件独立性标准的基本定义。定义10(Hilbert–Schmidt范数)设F是函数从X到R的再生核Hilbert空间(RKHS),由严格正核k:X×X诱导→ 设G是由严格正核l:Y×Y诱导的从Yto到R的函数的RKHS→ R[73]。用C:G表示→ F是线性算子。算子C的Hilbert–Schmidt范数定义为kCkhs:=Xi,jhCvi,ujiF(40),假设和收敛,其中Ui和ujare分别为F和G的正交基;高压、uiF、u、v∈ F表示F[13,18]中的内积,让Hw表示由严格正核kW:W×W诱导的RKH→ R.设X是X上的随机变量,Y是Y上的随机变量,(X,Y)是X×Y上的随机向量。我们假设X和Y是拓扑空间,可测性是关于相关σ定义的-场地。边际分布用PX,py表示,而(X,Y)的联合分布用PXY表示。期望值EX、Ey和EXY分别表示对PX、Py和PXY的期望值。

使用道具

53
大多数88 在职认证  发表于 2022-5-5 08:48:12 |只看作者 |坛友微信交流群
为了确保HX和Hy分别包含在L(PX)和L(PY)中,我们只考虑随机向量(X,Y),因此期望值EX[kX(X,X)]和EY[kY(Y,Y)]是确定的。定义11(希尔伯特-施密特算子)线性算子C:G→ F是希尔伯特-施密特,如果它的希尔伯特-施密特范数存在。希尔伯特-施密特算子集HS(G,F):G→ F是一个内积为hC,DiHS:=Xi,jhCvi,ujiFhDvi,ujiF(41)的可分Hilbert空间,其中C,D∈ HS(G,F)。定义12(张量积)设f∈ F和g∈ G然后,张量积算子f g:g→ f定义如下:(f) g) h:=fhg,hiG,代表所有h∈ G(42)上述定义使用了两个标准的符号缩写。第一个问题涉及在表示运算符的应用时省略括号:(f) g) h而不是(f) g) (h)。第二个1与一个标量的乘法有关,我们写fhg,hiG而不是f·hg,hiG。张量积的希尔伯特-施密特范数可以计算为:kf gkHS=hf g、 f giHS=hf(f) g) giF=hf,fiFhg,giG=kfkgkg(43)当引入互协方差算子时,我们将对张量积使用以下结果。给定一个希尔伯特-施密特算子L:G→ F和F∈ F和g∈ G、 hL,f giHS=hf,LgiF(44)是等式(44)的一个特例,其符号如前所述和u∈ F和v∈ G、 高频 g、 u viHS=hf,uiFhg,viG(45)定义13(平均元素)鉴于上述符号,我们定义关于概率测度PX的平均元素uX,作为RKHS HXfor的一个元素:huX,fiHX:=EX[hφ(X),fiHX]=EX[f(X)](46)式中φ:X→ HXis是一个特征图,f∈ HX。平均元素是存在的,只要它们各自的范数是有界的,如果相关核是有界的,就会满足其条件。C.希尔伯特——施密特独立性标准(HSIC),如第2.1.4节所述。

使用道具

54
nandehutu2022 在职认证  发表于 2022-5-5 08:48:15 |只看作者 |坛友微信交流群
,在[13,18]之后,让FX,fy表示由严格正欧内斯kX:X×X诱导的RKH→ R和kY:Y×Y→ R.设X是X上的随机变量,Y是Y上的随机变量,(X,Y)是X×Y上的随机向量。边际分布用px,py表示,(X,Y)的联合分布用PXY表示。定义14(Hilbert–Schmidt独立性准则(HSIC)根据前面介绍的FX、FY、PX、Pyas符号,我们将Hilbert–Schmidt独立性准则定义为互协方差算子的平方Hilbert–Schmidt范数,∑XY:HSIC(PXY,FX,FY):=k∑XYkHS(47)。我们引用[13]中的引理1(核符号中的HSIC)HSIC(PXY,FX,FY):=EX,Y,Y[kX(X,X)kY(Y,Y)]+EX,X[kX(X,X)]EY,Y[kY(Y,Y)]-2EX,Y[EX[kX(X,X)]EY[kY(Y,Y)](48)其中X,X和Y是同一随机变量的独立副本。D.螺旋平均元素的估计量:^m(n)X=nnXi=1kX(·,Xi)^m(n)Y=nnXi=1kY(·,Yi)(49)经验互协方差算子:^∑(n)XY=nnXi=1(kY(·,Yi)- ^m(n)Y)hkX(·,Xi)- ^m(n)X,·iHX=nnXi=1{kY(·Yi)- ^m(n)Y} {kX(·,Xi)- ^m(n)X}(50)经验归一化互协方差算子:^V(n)XY=(^∑(n)XX+nλIn)-1/2∑(n)XY∑(n)Y+nλIn)-1/2(51),其中nλi被添加以确保可逆性。经验归一化条件互协方差算子:^V(n)XY |Z=^V(n)XY-^V(n)XZ^V(n)ZY(52)对于表示任何变量(XZ),(yz)或Z的U,我们用以KUa为中心的Gram矩阵表示,这样每个元素等于:KU,ij=hkU(·Ui)- ^m(n)U,kU(·,Uj)- ^m(n)UiHU;设RU=KU(KU+nλI)-1.使用这种符号,HSNCIC的经验估计可以写成:HSNCICn:=tr[r(XZ)r(yz)- 2R(XZ)R(Y Z)RZ+R(XZ)RZR(Y Z)RZ](53)E.交叉验证过程获取内核(或更准确地说,一个Gram矩阵)需要大量计算。

使用道具

55
nandehutu2022 在职认证  发表于 2022-5-5 08:48:18 |只看作者 |坛友微信交流群
执行交叉验证需要为网格的每个点计算两个内核(一个用于测试数据,另一个用于验证数据)。同时为测试和验证数据计算一个内核是最有效的。这是通过对数据进行排序来实现的,以便训练数据点是后续的(验证点是后续的),计算整个(但顺序适当)数据集的内核,并选择内核的适当部分进行测试和验证:\'\'K=K(Wtrain,Wtrain)K(Wtrain,Wval)K(Wval,Wtrain)K(Wval,Wval)(54)验证点的内核现在是使用训练点和验证点的内核的一部分:\'Kval=K(Wval,Wtrain)(55)这种方法很重要,因为它允许我们使用为测试数据计算的双参数,而不会出现尺寸问题。回想等式(14),我们现在可以将误差表示为:m(`Kvalα)*- x) T(`Kvalα)*- x) (56)即使有一种计算核的有效方法,交叉验证仍然很昂贵。如下文所述,为了获得特定因果关系测量的显著水平,有必要计算置换测试,并获得移动窗口的接受率或一系列p值。在实践中,为了在合理的时间内运行多个实验,使用多个测量值,合理的折衷办法不是在每个步骤后进行交叉验证,而是在所有试验中进行一次试验并使用这些参数。我们认为,内核化Geweke方法的优点之一,以及Ykernels经常用于在线学习的原因之一,在于可以优化参数,但不必每次都优化参数。Geweke的测量基于最佳线性预测。

使用道具

56
可人4 在职认证  发表于 2022-5-5 08:48:21 |只看作者 |坛友微信交流群
虽然我们将它们推广到使用非线性预测,但如果我们采用交叉验证,我们仍然可以使用最优预测。在本文描述的应用中,我们使用了高斯核,其定义如下:k(x,y)=exp(-kx- ykσ)(57),线性核定义为k(x,y)=xTy。我们使用随机五次交叉验证来选择调节和核参数的最佳参数γ。设(xt,yt,zt),t=1。。。,n是时间序列。我们想计算Gy→xkz。基于给定的时间序列,我们创建了一个滞后(嵌入)等于p的学习集,并按照第2.1.3节的符号准备了一个学习集:(十一、wi)-圆周率-1) ,因为i=p+1。。。,n、 学习集随机分成五个大小相同的子集。对于每个k=1。。。,5.我们得到一个第k个验证集和一个第k个测试集,其中包含不属于第k个验证集的所有数据点。接下来,创建一个网格,给定参数γ和内核参数的值范围(值以对数刻度变化)。对于每个训练集和网格上的每个点,我们计算双重权重α*. 这些双重权重用于计算该特定网格点的验证分数和预测误差。对五个验证分数进行平均,以获得网格上每个点的预测误差估计值。我们选择与网格点相对应的参数,并对预测误差进行最小估计。最后,在给定最优参数的情况下,计算整个学习集的预测误差。如前所述,我们从中选择最佳参数的参数集分布在整个演算尺度上。

使用道具

57
何人来此 在职认证  发表于 2022-5-5 08:48:25 |只看作者 |坛友微信交流群
整个交叉验证在计算上可能相对昂贵,因此,不必要的大网格是不可取的。感谢Kacper Chwialkowski(英国伦敦大学学院)对手稿进行的有用讨论和宝贵反馈。特别感谢Maciej Makowski对初稿进行校对并提供一般性意见。我们还想感谢Dynamic Devices AG的首席技术官Max Lungarella提供[28]的代码,尽管没有在本文所述的任何实验中使用该代码,但它为我们提供了有关转移熵和替代方法的重要见解。确认经济及社会研究理事会(ESRC)对系统性风险中心的支持(ES/K002309/1)。作者贡献所有作者都对研究的概念和设计、数据的收集和分析以及结果的讨论做出了贡献。利益冲突作者声明没有利益冲突。参考文献1。《因果关系:模型、推理和推理》;剑桥大学出版社:纽约,纽约,美国,2000年2月。格兰杰,C.W.J.因果关系检验:个人观点。J.经济。戴恩。控制1980,2329–352.3。诺伯特·W.《预测理论》。工程师的现代数学;贝肯巴赫,E.F.,Ed。;麦格劳·希尔:1956年,美国纽约州纽约市;第1.4卷。涉及经济反馈,格兰杰过程。知会控制。1963, 6, 28–48.5. Granger,C.W.J.通过计量经济学模型和交叉谱方法研究因果关系。计量经济学1969年,37424-438.6。Geweke,J.多个时间序列之间线性相关性和反馈的测量。杰姆。统计协会1982年,77304-313.7。Geweke,J.F.时间序列之间条件线性依赖和反馈的度量。杰姆。统计协会1984年,79907-915.8。

使用道具

58
kedemingshi 在职认证  发表于 2022-5-5 08:48:28 |只看作者 |坛友微信交流群
对所用术语的评论:“格兰杰因果关系”一词在文献中有一系列不同的含义,从统计测试到我们这里所说的“统计实用性”的同义词。在本文中,我们主要使用术语“格兰杰因果关系”作为特定依赖类型概念的名称,但每当我们量化这种依赖时,我们都会提到特定的衡量标准9。安伯拉德,P。;文森特,R。;米歇尔,O。;Richard,C.Kernelizing Geweke的格兰杰因果关系度量。2012年9月在西班牙桑坦德举办的IEEE信号处理机器学习国际研讨会(MLSP)上发表;第1-6.10页。安伯拉德,P.O。;Michel,O.J.J.格兰杰因果关系与定向信息理论之间的关系:综述。熵2012,15113–143.11。然而,这种混淆可能并不一定是不利的。如果我们将瞬时耦合解释为共享公共信息,我们可能会感兴趣地了解到,X与Y共享同步信息,而不管它们是否与Z共享同步信息。没有来自时间结构的方向性,我们无法区分直接和间接效应,这是在测量因果关系时包含次要信息的基本原理之一。12.格雷顿,A。;赫布里奇,R。;斯莫拉,A。;布斯克,O。;Schoelkopf,B.测量相关性的核方法。J.马赫。学2005年6月2075-2129.13号决议。格雷顿。;布斯克,O。;斯莫拉,A。;Schoelkopf,B.用Hilbert–Schmidt范数测量统计依赖性。算法学习理论;Springer Verlag:柏林/海德堡,德国,2005年;p、 63-77.14。太阳,X。;Janzing,D。;Schoelkopf,B。;一种基于内核的因果学习算法。2007年6月21日至23日在美国俄勒冈州俄勒冈州举行的第24届国际机器学习会议记录;ACM:美国纽约州纽约市,2007年;第855-862.15页。

使用道具

59
mingdashike22 在职认证  发表于 2022-5-5 08:48:33 |只看作者 |坛友微信交流群
英国福水。;格雷顿。;太阳,X。;Schoelkopf,B.条件依赖的核心度量。美国国家统计局,2007年,20489-496.16。格雷顿。;英国福水。;Teo,C.H。;宋,L。;Schoelkopf,B。;斯莫拉,A.J.独立的核心统计专家;神经信息处理系统进展20:2007年第21届神经信息处理系统年度会议;麻省理工出版社:美国马萨诸塞州剑桥,2008.17。盖恩,我。;Janzing,D。;因果关系:目标和评估。J.马赫。学2010年决议,6 1–42.18。Sun,X.从多元时间序列评估非线性格兰杰因果关系。在机器学习和数据库中的知识发现方面;达勒曼,W.,戈塔尔,B.,莫里克,K.,编辑。;计算机科学课堂讲稿中的数字5212;施普林格:柏林/海德堡,德国,2008年;第440-455.19页。马里纳佐,D。;佩利科罗,M。;Stramaglia,S.Kernel Granger因果关系和动态网络分析。菲斯。牧师。E、 非线性软物质物理。2008, 77, 056215.20. Schoelkopf,B。;Tsuda,K。;Vert,J.P.计算生物学中的核方法。麻省理工学院出版社:美国马萨诸塞州剑桥,2004.21。黑斯蒂,T。;蒂布什拉尼,R。;弗里德曼,J.H.《统计学习的要素——数据挖掘、推理和预测》;斯普林格:纽约,纽约,美国,2009.22。Renyi,A.关于依赖性的测量。数学学报。阿卡德。Sci。挂。1959, 10, 441–451.23. 格雷顿。;斯莫拉,A。;布斯克,O。;赫布里奇,R。;贝利茨基。;奥加特,M。;村山,Y。;Pauls,J。;Schoelkopf,B。;Logothetis,N.依赖性测量的核约束协方差。《艺术情报与统计学会会刊》,巴巴多斯黑斯廷斯,2005年1月。霍夫曼,T。;Schoelkopf,B。;Smola,A.J.机器学习中的核心方法。安。统计数据2008,361171-1220.25。塞思,S。;普林西比,J.使用条件独立性的非参数度量评估格兰杰非因果关系。IEEE Trans。神经网络。

使用道具

60
mingdashike22 在职认证  发表于 2022-5-5 08:48:36 |只看作者 |坛友微信交流群
学系统。2012, 23, 47–59.26. Schreiber,T.测量信息传输。菲斯。牧师。莱特。2000, 85, 461–464.27. 林德纳,M。;维森特,R。;普里斯曼,V。;Wibral,M.TRENTOOL:一个Matlab开源工具箱,用于使用传递熵分析时间序列数据中的信息流。BMC神经症。2011, 12, 119.28. 伦加拉,M。;石黑浩。;库尼约希,Y。;《量化二元时间序列因果结构的方法》。内J.分叉。混沌2007,17903–921.29。安伯拉德,P.O。;Michel,O.J.J.关于有向信息理论和格兰杰因果图。J.计算机。神经症。2011, 30, 7–16.30. 巴内特,L。;巴雷特,A.B。;Seth,A.K.Granger因果关系和转移熵对于高斯变量是等价的。菲斯。牧师。莱特。2009, 103, 238701.31. Seth,A.K.Granger因果连接性分析的MATLAB工具箱。J.神经症。方法2010186262–273.32。Anil Seth密码。Aviable online:http://www.sussex.ac.uk/Users/anils/aks密码htm(2014年4月20日查阅)。33。该代码可在http://www.sohanseth.com/Home/publication/causmci(于2014年4月20日查阅)。当数据较短或分析的时间窗口较短时,使用置换比旋转更为普遍。35.Hlavackova Schindler,K。;帕卢斯,M。;维梅尔卡,M。;Bhattacharya,J.基于时间序列分析中信息理论方法的因果关系检测。菲斯。众议员2007,441,1-46.36。查韦斯,M。;Martinerie,J。;le van Quyen,M.非线性因果关系的统计评估:癫痫脑电图信号的应用。J.神经症。方法2003、124、113–128.37。克努特,克努特。;戈莱拉,A。;咖喱。;休瑟,K.A。;K.R.惠勒。;Rossow,W.B.用信息论揭示了相关气候变量之间的相关性。《地球太阳系统技术会议记录》(ESTC 2005),加利福尼亚州奥兰治县,美国,2005年1月38日。古尔·埃维奇,B。;艾格蒙特,J.J。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-22 08:33