楼主: 时光永痕
1699 0

[数据挖掘新闻] 标准化相关性的简单技巧,R平方等 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

6%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2020-11-16 20:09:04 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
标准化相关性的简单技巧,R平方等
许多统计数据(例如相关性或R平方)取决于样本大小,因此很难比较在两个大小不同的数据集上计算出的值。在这里,我们解决这个问题。
下面是一个包含20个观察结果的示例。最后10个观测值(数据集的后半部分)是前10个观测值的镜像,并且对每个子集计算的两个相关性相同且等于0.30。根据20个观察值计算出的完全相关性是0.85。
人们会期望,由于它们表示相同的关联,因此这些关联应该相同。当然,通过将观测值的数量加倍(从10到20),您可以获得更多的统计意义,并且可以增强相关性。因此,从统计角度来看,如果新观察值的行为与以前的观察值相同,则在添加新观察值时相关性会发生变化(增加)。
但是,这使得不可能在不同大小的数据集之间进行有意义的比较。解决此问题的一种方法是计算10点子集的相关性。有92
在这种情况下,我们简单地对由10个连续观察组成的所有10个子集上计算的10个相关值取平均。最终的相关性可以称为重采样相关性,等于0.67。现在您不再比较苹果和橘子。
使用相同的数据生成机制(即,相同的统计模型),我执行了十次测试,每次都进行了20次观察,数据集的下半部分与上半部分具有相同的相关性。下表的第三栏中列出了这种相关性。第二列表示在整个数据集(20个观察值)上计算的相关性,而最后(第四列)表示重新采样的相关性。
该电子表格中提供了数据,计算和图表 。数据集由存储在列C和D中的两个变量组成。相同的方法可以应用于任何系数,例如R平方或线性模型中的回归系数。有关重采样技术的更多信息,请参见此处。有关其他技巧,请点击此链接。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:R平方 相关性 标准化 相同的数据 统计模型

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-5 02:01