楼主: 铁锷未残
41892 47

[一般统计问题] 【求解答】数据中心化处理的原因 [推广有奖]

11
chinanety 发表于 2014-12-28 16:33:22

回帖奖励 +1

谢谢,非常好的东西

12
791935570 学生认证  发表于 2015-1-20 19:02:46

回帖奖励 +1

13
laodong1983 在职认证  发表于 2015-1-26 10:18:10

回帖奖励 +1

就是把变量标准化

14
施冠锐 发表于 2015-1-26 14:57:24

回帖奖励 +1

比如有的公司市值几万
有的公司市值几个亿
进行回归会有问题
就可以用

15
奔跑的小孩 发表于 2015-1-26 22:32:55

回帖奖励 +1

16
junyun0315 在职认证  发表于 2015-1-27 13:39:52

回帖奖励 +1

个人感觉中心化不影响模型结果

17
铁锷未残 学生认证  发表于 2015-1-28 10:06:29
在模型Y = b0 + b1X + b2Z + b3XZ 中
中心化的意思通俗来说,就是在解读回归系数时,一般需要将X、Z和XZ的取中值再回复到各自的原始值。
先将X和Z分别取中,即将X和Z分别减去各自的均值(即XM和ZM),其结果也就是原始值的离差,然后再将取中后的X和Z相乘,如下:
X1=X - XM
Z1=Z-ZM
XZ1 = (X - XM) * (Z - ZM)(不会弄下标,额,明白意思就行哈,囧)
模型变为:Y=a0+b0 X1+c0 Z1+d0 XZ1
即为:Y=a0+b0 (X-XM)+c0 (Z-ZM)+d0 (X - XM) * (Z - ZM)
整理后,Y=a0*+b0*X+c0*Z+d0*XZ
这时你按照以前解释系数的方法去解释就可以啦~
我不知道你是不是问的这个~~
希望有点帮助!

需要注意的是,给定自变量的取值为什么要中心化的一个原因就是会使得预测值的方差较小,因而预测值的估计也越精确,反之,给定的自变量的取值越远离其样本均值,则预测值越不准确。

以上文字截取自某位坛友,红色字体部分是对本帖提出问题的回答。
来源:
https://bbs.pinggu.org/forum.php?mod=viewthread&tid=638629&page=1#pid4560961

18
fjrong 在职认证  发表于 2015-3-2 00:42:58

回帖奖励 +1

友情顶

19
hzhuang9 发表于 2015-3-2 23:09:17

回帖奖励 +1

用来处理数据的偏态、数据的缺失、数据的异常值等,而且数据中心化后,使得截距项的经济含义明确了

20
fjrong 在职认证  发表于 2015-3-4 11:22:41
帮忙顶

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-26 14:09