楼主: kedemingshi
2478 71

[量化金融] 完美的婚姻和更多:结合降维, [推广有奖]

11
何人来此 在职认证  发表于 2022-5-11 03:49:25
特别是,距离由滤波器输出的方差和平均值的时间积分给出,滤波器的设计目的是生成特定过程的条件期望。如果将匹配滤波器定义为其输出是输入中包含的信号的条件期望,那么匹配滤波器的性能比不匹配滤波器的性能更容易分析。离散度涉及不匹配的滤波器,而Bhattacharyya距离仅使用匹配的滤波器。因此,Bhattacharyya距离更容易分析。在(Kailath 1967)中,我们证明了这两个测度对于具有不等均值函数的高斯过程给出了相似的结果,并且当过程具有不等协方差函数时,Bhattacharyya距离得到了更好的结果,而实际上,散度测度是。在(Schweppe 1967a)中,Bhattacharyya距离专门用于马尔可夫-高斯过程。(Cha2007)是关于概率密度函数之间距离/相似性度量的综合调查。对于两类情形中的离散样本,(Jain 1976)表明,使用点附近的泰勒级数展开,对Bhattacharyyac系数的任何估计都是有偏的和一致的。我们可以把Bhattacharyya系数写成,ρ(α,β)=NXi=1pαiβi(17),这里,α和β分别表示参数集{α,…,αN}和{β,…,βN}。

12
kedemingshi 在职认证  发表于 2022-5-11 03:49:28
类条件密度由,pi=NXi=1αiδ(x)给出- i) (18)pi=NXi=1βiδ(x- i) (19)使得NXi=1αi=NXi=1βi=1δ(i- j) =δij=如果i 6=j,则为0,如果i=j,则为1。(20)让αi和βi分别记录α和β的最大似然估计,i=1。。。,N、 基于两个类别中每个类别的可用样本数:αi=mi1mβi=mi2m(21),其中mi1和mi2是x分别从类别c中取i值的样本数。我们将Bhattacharyya系数的样本估计值定义为^ρ=ρ^α,^β=NXi=1q^αi^βi(22),其中,α={^α,…,αN}和β=N^β。。。,^β不分别。(Djouadi,Snorrason&Garber 1990)基于两类训练样本(由多元高斯分布描述)的Bhattacharyya系数估计的偏差和方差的衍生封闭式表达式。数字样本用于显示密度的真实参数、训练样本数、类别方差和观测空间维数之间的关系。3.2尺寸缩减在实践中应用Bhattacharyya距离的一个关键要求是具有相同尺寸的数据集。(Fodor 2002;Burges 2009;Sorzano,Vargas&Montano 2014)是旨在使用主成分分析或奇异值分解及相关技术降低数据集维度的方法的综合集合。(Johnson&Lindenstrauss 1984)证明了一个基本结果(JL引理),即欧几里德空间的任何n点子集都可以嵌入k=O(logn)中) 任何一对点之间的距离变形不超过(1±)因数的尺寸), 对于任何0< < 1.虽然主成分分析仅在原始数据点本质上是低维的情况下有用,但JL引理完全不需要对原始数据进行假设。

13
何人来此 在职认证  发表于 2022-5-11 03:49:31
此外,请注意,最终数据点不依赖于原始数据的维度,而原始数据的维度可能存在于任意高的维度中。原始证据的简化版本见(Frankl and Maehara 1988;1990)。我们使用(Frankl&Maehara 1990;Dasgupta&Gupta 1999)中给出的变换子空间维数的界的版本。(Nelson 2010)使用Hanson和Wright不等式(Hanson&Wright 1971)给出了一个证明。(Achlioptas 2003)使用随机算法证明了JL引理。(Venkatasubramanian&Wang 2011)对基于JL引理的降维算法的经验行为进行了研究。我们指出了矩阵代数和数值应用理论的精彩参考文献(Winter 2007;2012)。引理1。对于任何0< < 1和任意整数n,设k<d为正整数≥ 4.--1ln n然后,对于Rd中n个点的任何集合V,都有一个映射f:Rd→ 这对所有的u,v∈ 五、(1)- ) 库- vk≤ 肯德基(美国)-f(v)k≤ (1 + ) 库- vkFurthermore,这个映射可以在随机多项式时间内找到,其中一个映射是f(x)=√kAx在哪里,x∈ RDA是一个k×d矩阵,其中每个条目从高斯N(0,1)分布中进行i.i.d采样。4维度缩减的直觉上述关于距离度量和维度缩减的讨论在许多领域都被广泛使用,但两者的结合必然会在新手的头脑中造成混乱。因此,我们提供了日常生活中的例子(包括我们的例子和更高维度的生物的例子),以提供一个令人信服的论据,说明为什么两者一起使用可以成为研究由不确定性控制的复杂系统的有力工具。4.1飞镖游戏如果我们考虑多维空间中的点云。

14
mingdashike22 在职认证  发表于 2022-5-11 03:49:34
可以合理地预期,点之间的距离,或点的分布方式,可以衡量生成它们的过程中固有的随机性。当降维将点移动到较低的维度,并且它们之间的距离变化保持有界时,原始过程的随机性属性在规定的范围内,由执行维度变换的过程建立的边界保留,在我们的例子中,由JL引理给出。举个例子,从我们自己的真实生活来看,飞镖游戏中飞镖板上的标记代表了投掷飞镖的人的技能。为了简单起见,我们可以假设有三种类型的投掷手:新手、中级和高级。识别做出标记的人的类别,类似于识别随机过程的分布类型。如果我们使用变换将棋盘上的标记映射到一条线,使标记之间的距离保持有界,那么技能水平的差异将被保留,我们将能够识别标记人的类别。使用一种使距离保持有界的变换进行降维,本质上是一种同步降维。4.2四个物理维度的优点和局限另一个维度转换的例子来自我们生活的物理世界。我们是四维生物:纬度、经度、高度和时间是我们的维度,因为我们需要知道这四个坐标才能完全确定宇宙中任何物体的位置。这也许是电影《星际》(Thorne 2014)向普通观众(就物理学而言,比如我们中的许多人)阐明的。

15
能者818 在职认证  发表于 2022-5-11 03:49:37
此外,(Sagan 2006)还对许多物理方面进行了引人入胜的描述,包括物体或生物如何从更高维度转换到更低维度并改变形状;但他们需要遵守低维定律。最后一个维度,时间,是一个我们无法控制的维度,或者说,在其中移动。但是我们可以改变其他三个坐标,因此我们有三个自由度。(附录12)有一个详细的例子来建立与我们四维物理世界的维度转换相关的直觉。这个例子还应该让我们清楚地认识到,最好是使用我们可以使用的最高维度,因为每个更高维度都保留了我们试图理解的对象的一些特征,而这些特征在较低维度中可能无法识别。这也应该告诉我们,我们在宇宙中观察到的物体可能有许多有趣的性质,由于我们的物理维度的限制,我们无法观察到这些性质。5方法创新在这一部分,我们收集了本文的新结果。这些可以大致分为两类。第一个是当使用JL引理(第5.1、5.2、5.3、5.4节)将特定分布类型转换为不同维度(不同数量的随机变量)时,我们将获得的分布类型。第二组结果考虑了协方差和距离度量之间的关系(第5.5节)。5.1正态对数正态混合股票价格变化的正态性或其他方面在文献中进行了广泛讨论:(奥斯本1959;1962;法玛1965;1995;曼德布罗特和泰勒1967;孔1984;理查森和史密斯1993)。从股票价格过程的年龄计量布朗运动开始,可以确定股票价格是对数正态分布的(Hull 2006)。

16
大多数88 在职认证  发表于 2022-5-11 03:49:40
如果我们研究的变量仅为正,如价格、交易量或波动率,那么合理的初始假设是它们是对数正态分布的(我们在后面的章节中引入了这个假设,以纳入更一般的设置)。通过与独立正态分布相乘(见引理1),将对数正态多变量变量转换为较低维,得到正态对数正态混合变量的总和(Clark 1973;Tauchen&Pitts 1983;Yang 2008),其评估需要数值技术(Miranda&Fackler 2002)。如果随机变量U的形式为U=XeY(23),则称其为正态对数正态混合物,其中,X和Y是相关系数ρ满足以下条件的随机变量,XY~ NuXuY,σXρσXσYρσXσYσY(24)我们注意到,对于σY=0,当Y退化为常数时,这只是X和ρ的分布。要将具有随机变量的d个观测值的列向量转换为低维k<d,我们可以将列向量与矩阵a相乘~ 维数为k×d的N(0;k)。命题1。利用引理1将对数正态变量的d个观测值转换为低维k,得到一个概率密度函数,它是具有异常对数正态混合的随机变量之和,由卷积fS(s)=fU(u)给出* 傅(u)* ... * 福岛(英国)这里,福岛(ui)=√k2πσYiZ∞-∞E-Y-kui2e2y-[y]-uYi]2σYidyUi=XieYi西夷~ NuYi,k0σYi当我们有两个独立的随机变量之和,Z=X+Y时,两个概率密度的卷积就产生了。

17
能者818 在职认证  发表于 2022-5-11 03:49:43
Z的密度,hZ(Z)由,hZ(Z)=(fX)给出*fY(z)=fX(x)* fY(y)=Z∞-∞fX(z)- y)* fY(y)dy=Z∞-∞外汇(x)* fY(z)- x) dx当被添加的独立随机变量的数量大于2,或者引理1变换后的降维大于2,k>2,那么我们可以取前两个随机变量卷积后的密度乘以第三个变量的密度,然后以成对的方式,直到我们得到最终的密度。证据附录14.2给出了一个一般性的证明,然后将其应用于正态分布为零均值且两个变量不相关的情况。(Fowlkes 1979;Vernic,Teodorescu&Pelican 2009)研究了在正态(对数正态)分布混合时估计参数和比较结果分布的方法。如前所述,当对数正态分布具有低方差时,正态对数正态混合趋向于正态分布,并且该性质有助于确定该方法何时适用。5.2正态正态乘积为了完整性,我们说明了降维如何在包含正态分布的随机变量的数据集上起作用。鉴于正态分布的广泛使用,这也可以作为一个有用的基准,并且可以是一个独立有用的结果。(克雷格1936年)是早期研究两个量的乘积的可能误差的尝试之一,每个量都是已知的可能误差;成为第一个确定乘积矩母函数代数表达式的工作,但无法确定乘积的分布。发现Z=XY的分布是两个变量的相关系数和两个参数的函数,这两个参数与每个变量的变化系数的倒数成正比。

18
nandehutu2022 在职认证  发表于 2022-5-11 03:49:47
当两个随机变量的平均值的乘积为非零时,分布是偏态的,并且有多余的峰度,尽管(Aroian 1947;Aroian,Taneja&Cornwell 1978)表明产品接近正态分布,因为每个随机变量的平均值与标准误差(变异系数的反比)的一个或两个比率的绝对值变大。(Aroian 1947)表明,伽马分布(标准化皮尔逊III型)在某些情况下可以提供近似值。相反,这个乘积分布的解析解是第二类贝塞尔函数,带有一个纯假想的参数(Aroian 1947;Craig 1936)。(Craig 1936;Aroian,Taneja&Cornwell 1978)给出了两个相关正态变量乘积的四个动量。提议2。用引理1将正态变量的d个观测值转换为低维k,得到一个概率密度函数,它是具有正态乘积分布的随机变量之和,由卷积fS(s)=fU(u)给出* 傅(u)* ... * 福岛(英国)在这里,福岛(ui)=Z∞-∞|x|σYi√2πe-(十)-uYi)2σYirk2πe-k(uix)dxUi=XiYi西夷~ NuYi,k0σYi证据附录14.3给出了一个一般性证明,然后将其调整到正态分布为零均值且两个变量不相关的情况。评论我们注意到以下两个有用的结果。1.通过将乘积写成两个平方变量的差,很容易看出乘积分布是两个卡方随机变量的线性组合,Ui=XiYi=n[Xi+Yi]- [Xi- Yi]o(25)如果Xi~ N0,σXi; 易~ N0,σYi利用相关系数ρXiYi,然后,Ui=XiYi~σXi+σYi+2σXiσYiρXiYiP-σXi+σYi- 2σXiσYiρXiYiQ(26)这里,P,Q~ χ或具有一个自由度的中心卡方随机变量。

19
大多数88 在职认证  发表于 2022-5-11 03:49:50
P、 只有当σXi=σYi时,Q才是独立的。因此,一般来说,P,Q是相依的非中心卡方变量。2.我们在(附录14.3)中用于推导上述卷积的结果,也可以通过使用狄拉克δ函数,δ(x)as,fW(W)=fW(x,y)=Z,写出W=XY的密度得出∞-∞fX(x | y)fY(y)dy=Z∞-∞fX(x)dxZ∞-∞fY(y)δ(w)-xy)dy(27)=Z∞-∞fX(x)dxZ∞-∞fY(y)δY-wx|x | dy(28)=Z∞-∞外汇(x)| x | fYwxdx(29)(Glen,Leemis&Drew 2004)提出了一种计算两个独立随机变量乘积的概率密度函数的算法。(Springer&Thompson 1966)使用Mellin积分变换(Epstein 1948;结束注3)开发了推导n个独立随机变量乘积的概率分布和密度函数的基本方法;(Springer&Thompson 1970)使用这些方法证明独立β、γ和中心高斯随机变量的乘积是Meijer G函数(Mathai&Saxena 1973;结束注4)。(Ware&Lad 2003)的结果与我们的要求非常一致。他们试图计算正态分布变量乘积之和为负的概率。他们首先通过比较三种不同的方法来评估两个独立正态分布变量乘积的分布:1)数值方法近似,包括在MATLAB上实现数值积分程序;2) 蒙特卡罗构造与分析;3) 在特定条件下,通过计算产品的前两个矩,然后找到参数与矩匹配的分布,使用正态分布近似分析结果。其次,他们应用卷积公式来考虑两个正态分布变量的乘积之和。

20
mingdashike22 在职认证  发表于 2022-5-11 03:49:53
最后,他们结合这两个步骤得出主要结果,同时也表明可以使用直接蒙特卡罗近似法。(Seijas Macías&Oliveira 2012)是最近的一项工作,使用牛顿-科茨数值积分进行了几次比较(Weisstein 2004;结束注5)。此外,虽然将这些结果放在我们的脑海中是有用的,但找到简单的分布是值得的,而不是必须基于正态积或正态对数正态混合和来计算距离。下一节将讨论另一种方法,我们将两个分布都设置为截断正态。5.3截断正态/多元正态截断正态分布是一个正态分布随机变量的概率分布,其值要么低于,要么高于,要么两者都有界(Horrace 2005;Burkardt 2014),因此似乎是符合我们正在处理的分布的自然候选者。通过将分布设置为截断的多变量正态分布,我们可以估计分布的参数(包括不变分布和降维分布),并根据这些估计的分布计算距离。为了评估正态分布对观察样本的适用性,需要进行多种测试。偏度S和峰度K的单变量样本度量可用于测试单变量正态性。在常态下,S和K的理论值分别为0和3。回归残差正态性最著名的检验之一是(Jarque&Bera 1980;1987;尾注7;8)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-22 22:14