楼主: mmnu
19125 10

[回归分析求助] 请问回归时候缺失变量和0变量对结果有什么影响? [推广有奖]

  • 0关注
  • 0粉丝

本科生

46%

还不是VIP/贵宾

-

威望
0
论坛币
19 个
通用积分
30.3045
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
798 点
帖子
47
精华
0
在线时间
88 小时
注册时间
2011-11-12
最后登录
2023-10-21

楼主
mmnu 发表于 2016-9-11 10:48:23 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
假设有1000个样本。两个解释变量
解释变量中有100个数值为“0”
10个数值为“.”

回归的时候要不要删除掉“0”或者删除“.”之后再回归呢?
不删除的话对结果有什么影响?是影响系数还是影响t,p值?
另外这个知识看书的话应该属于哪个章节啊?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:缺失变量 解释变量 影响 样本 知识

回帖推荐

xddlovejiao1314 发表于2楼  查看完整内容

第一个问题:缺失值在回归前一般是要处理的,有多种处理方式。1)均值替代;2)多重补漏分析;3)删除;第二个问题:解释变量中有太多0,会使得变量呈右偏态分布,建议取对数处理一下变量。或者将连续变量处理为类别变量来分析。祝好运~

沙发
xddlovejiao1314 学生认证  发表于 2016-9-11 11:06:16
第一个问题:缺失值在回归前一般是要处理的,有多种处理方式。1)均值替代;2)多重补漏分析;3)删除;第二个问题:解释变量中有太多0,会使得变量呈右偏态分布,建议取对数处理一下变量。或者将连续变量处理为类别变量来分析。祝好运~
已有 2 人评分经验 学术水平 热心指数 信用等级 收起 理由
1KAOYAN + 1 + 1 + 1 精彩帖子
Captain-CUI + 20 热心帮助其他会员

总评分: 经验 + 20  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

藤椅
mmnu 发表于 2016-9-11 14:21:04
xddlovejiao1314 发表于 2016-9-11 11:06
第一个问题:缺失值在回归前一般是要处理的,有多种处理方式。1)均值替代;2)多重补漏分析;3)删除;第二 ...
谢谢回答啊,我问完还睡了一觉,想等有回答了再做,没想到回的这么快

被解释变量是教育年限,很多没受过教育的就有0值了,而且真的比例挺大的。这个能取对数或者分类成受教育水平再OLS吗?分类之后是不是就要做逻辑回归了啊?

板凳
xddlovejiao1314 学生认证  发表于 2016-9-11 15:40:59 来自手机
mmnu 发表于 2016-9-11 14:21
谢谢回答啊,我问完还睡了一觉,想等有回答了再做,没想到回的这么快

被解释变量是教育年限, ...
你这个不是自变量么,以虚拟变量形式纳入模型即可。

报纸
mmnu 发表于 2016-9-11 19:53:55
xddlovejiao1314 发表于 2016-9-11 15:40
你这个不是自变量么,以虚拟变量形式纳入模型即可。
方成两边都有教育年限。左边的0值较少,右边的0值较多。
我看了一下方程左边的数值基本正态分布。右边的不正态了
这样可以用最小二乘法吧?
虚拟变量的话,要设定8个,觉得结果不是太好解释。
也想过把0替换成1,但好像不能这么干吧。
目前我就是按0在的状态OLS的。

地板
xddlovejiao1314 学生认证  发表于 2016-9-11 20:58:17
mmnu 发表于 2016-9-11 19:53
方成两边都有教育年限。左边的0值较少,右边的0值较多。
我看了一下方程左边的数值基本正态分布。右边的 ...
OLS回归的基本假定是iid,即独立同分布,要得到无偏一致的估计量还得正态。所以可能你需要做相应的处理。受教育年限这个变量如果不是你关注的变量,那么处理为类别变量时不一定非要划分那么细的。比如可以考虑有没有上过大学将其划分为0,1之类的。

7
mmnu 发表于 2016-9-11 21:32:30
xddlovejiao1314 发表于 2016-9-11 20:58
OLS回归的基本假定是iid,即独立同分布,要得到无偏一致的估计量还得正态。所以可能你需要做相应的处理。 ...
我关注的就是受教育年限啊。
是父母受教育年限对子女受教育年限的影响。
所以方程两边都是受教育年限,没有别的变量了。
面对父母20-30%的0年,我也是很无奈。
如果这样不能OLS的话,我就不算不写这部分了。
或者我不做OLS,做个correlation的分析是不是对变量数值没有什么要求了啊?

8
xddlovejiao1314 学生认证  发表于 2016-9-11 21:38:33
mmnu 发表于 2016-9-11 21:32
我关注的就是受教育年限啊。
是父母受教育年限对子女受教育年限的影响。
所以方程两边都是受教育年限, ...
我个人觉得还是有要求额。

9
梧桐煜 发表于 2017-8-19 21:38:35
xddlovejiao1314 发表于 2016-9-11 20:58
OLS回归的基本假定是iid,即独立同分布,要得到无偏一致的估计量还得正态。所以可能你需要做相应的处理。 ...
您好,请问下,当自变量缺失时,用0替代,同时生成该自变量的虚拟变量(缺失取1,未缺失取0),最后在用因变量对这两个变量进行回归,这样做的用意是啥呀?

10
梧桐煜 发表于 2017-8-19 21:40:49
xddlovejiao1314 发表于 2016-9-11 20:58
OLS回归的基本假定是iid,即独立同分布,要得到无偏一致的估计量还得正态。所以可能你需要做相应的处理。 ...
您好,请问下,当一个自变量缺失时,缺失值用0替代,同时生成自变量的虚拟变量(数据缺失取1,未缺失取0),最后用因变量对二者进行回归,这样做的用意是啥呀?

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-2-2 22:34