楼主: 小木鱼2007
6860 8

[回归分析求助] 关于回归分析中分类变量设定和判别问题,请高手指点! [推广有奖]

  • 21关注
  • 6粉丝

已卖:40份资源

副教授

34%

还不是VIP/贵宾

-

威望
1
论坛币
6823 个
通用积分
87.8427
学术水平
15 点
热心指数
32 点
信用等级
13 点
经验
53334 点
帖子
325
精华
0
在线时间
728 小时
注册时间
2010-4-22
最后登录
2025-12-14

楼主
小木鱼2007 发表于 2014-8-22 20:32:05 |AI写论文
100论坛币
各位老师和大侠:在做Logistic回归时,关于分类变量设定时,如果是数值类的分组变量,能否可以直接按连续变量进行回归,例如家庭年收入:2万以下=1,2~6万=2,6-10万=3,10万以上=4,然后把分组以后的取值1、2、3、4、5直接按连续变量放入回归,可以吗?如果想分析不同的收入组对因变量的影响,是否就有必要把家庭年收入按分类变量(虚拟变量)进行放入回归?两者有什么区别吗?谢盼!

最佳答案

xingxf 查看完整内容

你这里面家庭年收入是自变量是吧?如果是自变量,当然最好的的方法是把实际收入数值带入回归。如果只有这个1,2,3,4,5,那么把这个分组变量带入回归,也没问题,回归的结果也是体现随着收入的提高,对你的因变量有何影响。如果你要研究不同收入组对因变量的影响,那么可以为单独的收入组设置dummy variable,进行回归。这两种做法的区别,前者研究随收入变化对因变量的影响,后者是研究某一个具体收入组和因变量的关系。两种方法 ...
关键词:分类变量 高手指点 回归分析 logistic回归 logistic 回归分析 分类变量 连续变量 虚拟变量 家庭年收入

回帖推荐

xingxf 发表于2楼  查看完整内容

你这里面家庭年收入是自变量是吧?如果是自变量,当然最好的的方法是把实际收入数值带入回归。如果只有这个1,2,3,4,5,那么把这个分组变量带入回归,也没问题,回归的结果也是体现随着收入的提高,对你的因变量有何影响。如果你要研究不同收入组对因变量的影响,那么可以为单独的收入组设置dummy variable,进行回归。这两种做法的区别,前者研究随收入变化对因变量的影响,后者是研究某一个具体收入组和因变量的关系。两种方法 ...

沙发
xingxf 发表于 2014-8-22 20:32:06
你这里面家庭年收入是自变量是吧?如果是自变量,当然最好的的方法是把实际收入数值带入回归。如果只有这个1,2,3,4,5,那么把这个分组变量带入回归,也没问题,回归的结果也是体现随着收入的提高,对你的因变量有何影响。如果你要研究不同收入组对因变量的影响,那么可以为单独的收入组设置dummy variable,进行回归。这两种做法的区别,前者研究随收入变化对因变量的影响,后者是研究某一个具体收入组和因变量的关系。两种方法所表达的含义是不同的。
已有 3 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
村口阿托 + 1 + 1 精彩帖子
小木鱼2007 + 5 + 2 + 2 + 2 精彩帖子
crystal8832 + 20 + 1 + 1 热心帮助其他会员

总评分: 论坛币 + 25  学术水平 + 4  热心指数 + 4  信用等级 + 2   查看全部评分

藤椅
huyumei.hi 学生认证  发表于 2014-9-7 15:10:13
基本同意楼上的看法,但是不能把1、2、3、4、5直接放进回归方程中,因为这些数字没有实际含义。正确的做法是取各收入组的平均值,如两万以下=1万,2~6万=4万,当然,这样做与放入虚拟变量的不同,正如楼上所言!!

板凳
小木鱼2007 发表于 2014-9-18 14:17:10
非常感谢!谢谢大家!

报纸
xingxf 发表于 2014-9-18 18:56:46
huyumei.hi 发表于 2014-9-7 15:10
基本同意楼上的看法,但是不能把1、2、3、4、5直接放进回归方程中,因为这些数字没有实际含义。正确的做法是 ...
不好意思,我觉得各取收入组的平均值是不可取的,这样得出的系数看似有意义,其实完全不准确。而且10万以上怎么算均值?没办法预计啊。把分组变量1,2,3,4,5直接带入回归是有意义的,回归结果体现的是随着收入提高,对dependent variable的影响。尽管这样回归系数不能体现量化的含义,但是性质是确定的。如果用均值,看似回归系数可以体现量化的意义,但是极为不准确,甚至会很误导。最好的办法还是用continuous variable,如果楼主数据只能提供categorial variable,那也是没办法的事。

地板
小木鱼2007 发表于 2014-9-18 20:23:53
有道理!

7
huyumei.hi 学生认证  发表于 2014-9-18 21:12:30
xingxf 发表于 2014-9-18 18:56
不好意思,我觉得各取收入组的平均值是不可取的,这样得出的系数看似有意义,其实完全不准确。而且10万以 ...
取均值确实是比较粗糙的做法,强烈建议楼主使用有序probit或有序logit~!!

8
huyumei.hi 学生认证  发表于 2014-9-18 21:15:00
取均值确实是比较粗糙的做法,强烈建议楼主使用有序probit或有序logit~!!

9
静思过少言非 发表于 2015-12-4 23:43:12
xingxf 发表于 2014-8-22 23:41
你这里面家庭年收入是自变量是吧?如果是自变量,当然最好的的方法是把实际收入数值带入回归。如果只有这个 ...
受用了,最近刚好在看分类变量和虚拟变量的关系~

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-8 05:11