标准化相关性的简单技巧,R平方等
许多统计数据(例如相关性或R平方)取决于样本大小,因此很难比较在两个大小不同的数据集上计算出的值。在这里,我们解决这个问题。
下面是一个包含20个观察结果的示例。最后10个观测值(数据集的后半部分)是前10个观测值的镜像,并且对每个子集计算的两个相关性相同且等于0.30。根据20个观察值计算出的完全相关性是0.85。
人们会期望,由于它们表示相同的关联,因此这些关联应该相同。当然,通过将观测值的数量加倍(从10到20),您可以获得更多的统计意义,并且可以增强相关性。因此,从统计角度来看,如果新观察值的行为与以前的观察值相同,则在添加新观察值时相关性会发生变化(增加)。
但是,这使得不可能在不同大小的数据集之间进行有意义的比较。解决此问题的一种方法是计算10点子集的相关性。有92
在这种情况下,我们简单地对由10个连续观察组成的所有10个子集上计算的10个相关值取平均。最终的相关性可以称为重采样相关性,等于0.67。现在您不再比较苹果和橘子。
使用相同的数据生成机制(即,相同的统计模型),我执行了十次测试,每次都进行了20次观察,数据集的下半部分与上半部分具有相同的相关性。下表的第三栏中列出了这种相关性。第二列表示在整个数据集(20个观察值)上计算的相关性,而最后(第四列)表示重新采样的相关性。
该电子表格中提供了数据,计算和图表 。数据集由存储在列C和D中的两个变量组成。相同的方法可以应用于任何系数,例如R平方或线性模型中的回归系数。有关重采样技术的更多信息,请参见此处。有关其他技巧,请点击此链接。
题库


雷达卡



京公网安备 11010802022788号







