楼主: athas_pro
5950 13

[问答] 请教,均值比较和回归系数不一致,能解释吗? [推广有奖]

  • 0关注
  • 4粉丝

讲师

8%

还不是VIP/贵宾

-

威望
0
论坛币
531 个
通用积分
8.1447
学术水平
2 点
热心指数
3 点
信用等级
2 点
经验
4093 点
帖子
49
精华
0
在线时间
750 小时
注册时间
2008-5-19
最后登录
2025-12-7

楼主
athas_pro 发表于 2015-8-28 22:53:12 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
因变量:Y
自变量:费率,本身是连续变量,人为分为低、中、高组。
然后低费率组对应Y的均值>中费率组,但是不显著。
       中费率组对应Y的均值<高费率组,显著。即是说费率和Y正相关?
       即均值图曲线是V字形的……

回归以后,费率和Y 显著负相关。

这种情况该怎么解释或者调整?头疼死了,感谢各位!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:回归系数 均值比较 连续变量 自变量 因变量 样本 中位数 因变量 自变量

沙发
xddlovejiao1314 学生认证  发表于 2015-8-29 09:06:58 来自手机
athas_pro 发表于 2015-8-28 22:53
因变量:Y
自变量:费率,本身是连续变量,人为分为低、中、高组。
然后低费率组对应Y的均值&gt;中费率组,但 ...
低等和中等差异不显著,却和高等差异显著。试试中等和高等显著与否呢。若显著,尝试将低等和中等合并呢。ps:你分低,中和高三组是否有依据呢?如果没有依据,为什么连续变量要分组呢,直接以连续变量纳入模型就好啊。祝好运~
已有 1 人评分论坛币 收起 理由
admin_kefu + 30 精彩帖子

总评分: 论坛币 + 30   查看全部评分

藤椅
athas_pro 发表于 2015-8-29 09:25:53
xddlovejiao1314 发表于 2015-8-29 09:06
低等和中等差异不显著,却和高等差异显著。试试中等和高等显著与否呢。若显著,尝试将低等和中等合并呢。 ...
感谢回复。
分组是按另一篇文献,按20%和80%分位数划分的,做均值比较,然后再回归……我算是依葫芦画瓢,虽然现在还不是很明白为什么。
中低等合并的思路倒是很有启发~我先尝试按照这个思路改成划分两组(只分低、高)而不是三组,再做均值比较,结果显著了。不过,我仍然头疼的一个问题就是,均值比较里低费率组的Y是低于高费率组的Y,即是说费率和Y是正向关系;可是回归里费率的系数是负的,说明费率跟Y反向关系。这时候我该怎么办呢?

还是说,其实均值比较这步可以假装没做,就忽略过去呢?

板凳
xddlovejiao1314 学生认证  发表于 2015-8-29 09:40:48
athas_pro 发表于 2015-8-29 09:25
感谢回复。
分组是按另一篇文献,按20%和80%分位数划分的,做均值比较,然后再回归……我算是依葫芦画瓢 ...
是不是你没有在构建模型前对Y数据做预处理,使得Y存在极端异常值,改变了回归系数的方向。按道理来说,如果你对数据进行了预处理,你的结果会与描述性统计分析结果类似的。同时,也请检验下模型中的自变量是否存在多重共线性,这也可能导致模型系数方向发生改变。祝好运~

报纸
xddlovejiao1314 学生认证  发表于 2015-8-29 09:41:27
athas_pro 发表于 2015-8-29 09:25
感谢回复。
分组是按另一篇文献,按20%和80%分位数划分的,做均值比较,然后再回归……我算是依葫芦画瓢 ...
是不是你没有在构建模型前对Y数据做预处理,使得Y存在极端异常值,改变了回归系数的方向。按道理来说,如果你对数据进行了预处理,你的结果会与描述性统计分析结果类似的。同时,也请检验下模型中的自变量是否存在多重共线性,这也可能导致模型系数方向发生改变。祝好运~

地板
hymer0504 发表于 2015-8-29 10:10:28
ok,学习了!!!!

7
athas_pro 发表于 2015-8-29 14:33:38
xddlovejiao1314 发表于 2015-8-29 09:40
是不是你没有在构建模型前对Y数据做预处理,使得Y存在极端异常值,改变了回归系数的方向。按道理来说,如 ...
我的做法是对所有连续变量包括Y都做了1%的winsorize。
对绝对数值的变量取了对数,比率变量我记得哪里看到的说法是不要取对数。

回归的话,是当只有Y和费率的时候,正相关(与均值比较结果一致),但是并不显著
              加入一系列控制变量以后,负相关(与均值比较结果不一致),显著。
所以不知道怎么解释……

你有提示多重共线性问题,如果看VIF的话是都远远小于10。但是如果看共线性诊断里的条件索引是有超过的。我也很迷茫,究竟哪种判断多重共线性靠谱?很多时候感觉如果都非常严格做完所有检验,我的数据怎么也无法满足。

不好意思一直在提问。因为没有系统的学习过计量经济学,完全是在摸石头过河,总感觉自己在看十万个为什么。兄台在坛子里十分活跃,望赐教一二。

8
xddlovejiao1314 学生认证  发表于 2015-8-29 14:49:04 来自手机
athas_pro 发表于 2015-8-29 14:33
我的做法是对所有连续变量包括Y都做了1%的winsorize。
对绝对数值的变量取了对数,比率变量我记得哪里看 ...
连续性的变量取对数在某种程度上可缓解异方差的影响。个人不建议使用缩尾命令处理数据,直接对正偏态分布数据取对数即可。建议你做散点图和箱图看看是否还存在极端异常值,看看关注自变量和因变量间的关系是正或是负。始终感觉哪里有问题,但因为现在只是知道你口述的东西,没有一些截图,没法进一步帮忙诊断。PS:现在根据vif值判断,你的模型是不存在多重共线性的。

9
athas_pro 发表于 2015-8-29 15:23:48
xddlovejiao1314 发表于 2015-8-29 14:49
连续性的变量取对数在某种程度上可缓解异方差的影响。个人不建议使用缩尾命令处理数据,直接对正偏态分布 ...
那么还要再请教,之前我看的说法“比率不宜取对数”,你觉得正确吗?因为Y和费率都是属于比率数值,所以我一直没有取对数。
箱图确实不太理想,而且我不是太明白从箱图看到的异常值应该怎么处理?
SPRD是原始比率,LNSPRD是取对数以后,好像还是不理想》?
2.png 1.png

2.png (19.67 KB)

2.png

1.png (11.81 KB)

1.png

10
xddlovejiao1314 学生认证  发表于 2015-8-29 15:34:17
athas_pro 发表于 2015-8-29 15:23
那么还要再请教,之前我看的说法“比率不宜取对数”,你觉得正确吗?因为Y和费率都是属于比率数值,所以我 ...
比率数据本来就比较少,一般也不会右偏,所以对比率数据取不取对数没多大关系。大家公认的操作可能是不取对数。至于你现在这样,取了对数后还是有异常值,建议做稳健回归。spss实现比较麻烦,建议用stata软件,语句加robust。这样就不担心极端异常值的影响了。祝好运。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-29 14:16