|
现在,考虑以下相关值:–ρ(X,Y)=0,所以E[(X- Y)]=(uX- uY)+σX+σY。这两个变量是独立的(因为不相关且联合正态分布),因此我们必须区分分布信息。假设uX=uYandσX=σY。对于σX=σY 1,我们得到E[(X)- Y)] 1,而不是比较两个相等的高斯数所期望的距离0ρ(X,Y)=1,所以E[(X-Y)]=(uX-uY)+(σX-σY)。由于变量是完全相关的,我们必须在分布上加以区分。实际上,我们用均值×标准差半平面上的一个度量来比较它们。然而,这不是比较两个高斯函数的合适几何[11]。例如,如果σX=σY=σ,我们发现E[(X- Y)]=(uX- uY)对于σ的任何值。随着σ的增长,两个高斯分布到阿吉文区间的概率变得相似(参见图8),但这种相似性的增加并未被这一点考虑在内。302010020300.000.050.100.150.200.250.300.350.40图。8.高斯N的概率密度函数(-5,1)和N(5,1)(绿色),高斯N(-5,3)和N(5,3)(红色),以及高斯N(-5,10)和N(5,10)(蓝色)。使用参数空间(u,σ)上的几何,绿色、红色和蓝色高斯是等距的。E[(X)-Y)]考虑了随机变量的依赖性和分布信息,但与我们的任务无关。我们的目的是引入一种新的数据表示和一个适当的距离,它同时考虑了分布近邻和联合行为。16计算机科学课堂讲稿:关于金融时间序列的聚类(Ohm, F、 P)是一个概率空间。Ohm 是样本空间,F是事件的σ代数,P是概率测度。设V是定义在上的所有连续实值随机变量的空间(Ohm, F、 P)。
|