楼主: cbchinese
32683 26

[问答] 《讨论》二分类变量何时应定义为哑变量? [推广有奖]

  • 6关注
  • 23粉丝

已卖:5364份资源

讲师

73%

还不是VIP/贵宾

-

威望
0
论坛币
19393 个
通用积分
536.1343
学术水平
31 点
热心指数
47 点
信用等级
38 点
经验
8241 点
帖子
569
精华
0
在线时间
210 小时
注册时间
2009-5-20
最后登录
2022-2-22

楼主
cbchinese 发表于 2013-7-30 23:00:07 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
进行Logistic回归时(实际Cox回归同样存在类似问题)SPSS中可以用categorical...来定义分类协变量(哑变量),那么问题就来了,何时定义哑变量,对于二分类变量或三分类变量何时应该做为哑变量处理。因为做不做为哑变量处理结果完全不同。
下面举个例子,大家来看看:
举例数据库见附件:rar解压后即可
logistic例.rar (920 Bytes) 本附件包括:
  • logistic例.sav

不同方法结果不同见附件word文档
logistic例不同方法结果不同.docx (21.58 KB)
筛选变量采用Foward:Wald
如果设置哑变量,则哑变量对照方法采用系统默认的indicator
针对术后是否复发做logistic回归分析

三种方法,结果不同
方法1、所有变量均不做为哑变量,直接分析,结果如下
p1.png
方法2、将变量除年龄外的胃切除、家族遗传、营养状况、术后化疗均做为哑变量进行分析,结果如下
p2.png
方法3、仅将三分类变量胃切除、营养状况做为哑变量分析,二分类变量家族遗传、术后化疗不做为哑变量分析,结果如下
p3.png
请问各位仁兄和老师,为什么三个结果会不同,我们应该选择哪种方法。该例数据实际来源于统计书《医学统计学与SPSS 软件应用》例13-1,书中采用的是第一种方法,为什么用第一种方法?书中的举例有问题?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:二分类变量 分类变量 二分类 哑变量 Logistic回归分析 回归分析 数据库

回帖推荐

ofzhengyi 发表于2楼  查看完整内容

纠正你一下。方法2和3的结果是一样的。只是家族遗传、术后化疗系数的正负号不一样,这说明spss和你选择了不同的状况做为对照组。但实质上是一样的。 方法1和其他两种方法不一样是很正常的呀,完全就是不同的回归模型。方法1是把三分类变量当作一个变量处理,而方法2和方法3是spss把三分类变量自动分为两个虚拟变量后,才进行的回归。 我也是初学者,回答的不知道对不对,见笑了。

本帖被以下文库推荐

沙发
ofzhengyi 发表于 2013-7-31 00:01:52
纠正你一下。方法2和3的结果是一样的。只是家族遗传、术后化疗系数的正负号不一样,这说明spss和你选择了不同的状况做为对照组。但实质上是一样的。
方法1和其他两种方法不一样是很正常的呀,完全就是不同的回归模型。方法1是把三分类变量当作一个变量处理,而方法2和方法3是spss把三分类变量自动分为两个虚拟变量后,才进行的回归。
我也是初学者,回答的不知道对不对,见笑了。
已有 4 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
yiruodongchuan + 1 + 1 + 1 + 1 观点有启发
jswu167 + 30 + 5 分析的有道理
cbchinese + 1 + 1 + 1 谢谢帮助
ereree + 20 + 20 + 1 热心帮助其他会员

总评分: 经验 + 50  论坛币 + 21  学术水平 + 2  热心指数 + 8  信用等级 + 2   查看全部评分

士不可不弘毅,任重而道远。

藤椅
cbchinese 发表于 2013-7-31 00:09:06
ofzhengyi 发表于 2013-7-31 00:01
纠正你一下。方法2和3的结果是一样的。只是家族遗传、术后化疗系数的正负号不一样,这说明spss和你选择了不 ...
谢谢回答啊,后两个结果是一样的,也就是说如果是二分类变量无论如论是否当哑变量进行分析,结果都是相同的。非常感谢,我明白了。
但书中没有将三分类变量当虚拟变量处理是否是错误的?

板凳
cbchinese 发表于 2013-7-31 00:18:57
ofzhengyi 发表于 2013-7-31 00:01
纠正你一下。方法2和3的结果是一样的。只是家族遗传、术后化疗系数的正负号不一样,这说明spss和你选择了不 ...
谢谢啊,细细想想,您说的有道理啊。二分类变量确实无论是否当哑变量处理结果都是一样的,高手就是高手。

另外一个问题不讨论了,我想教材中可能只是考虑数据的处理,而会忽略一些数据处理的合理性吧,我可能太钻牛角尖了。非常感谢您。

报纸
ofzhengyi 发表于 2013-7-31 00:27:12
你这边的三分类变量其实是定序变量,按书本上那样子处理也是可以的。定序变量按照方法1的处理方法可以节约自由度,即用方法1比方法2可以少估计一个系数。
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
cbchinese + 1 + 1 + 1 谢谢帮助

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

士不可不弘毅,任重而道远。

地板
cbchinese 发表于 2013-7-31 07:50:35
ofzhengyi 发表于 2013-7-31 00:27
你这边的三分类变量其实是定序变量,按书本上那样子处理也是可以的。定序变量按照方法1的处理方法可以节约自 ...
谢谢,嗯,你说的有道理,营养状态确实可以当定序变量,但胃切除的方式有点牵强

7
cbchinese 发表于 2013-7-31 08:16:58
ofzhengyi 发表于 2013-7-31 00:27
你这边的三分类变量其实是定序变量,按书本上那样子处理也是可以的。定序变量按照方法1的处理方法可以节约自 ...
感谢兄弟们(包括其它论坛的一些兄弟),您们让我清楚多了,尤其是你指点的这部分。
我现在理解的确实如你所说的,1、如果是二分类变量不用设为哑变量,2、如果是三分类以上的有序变量尽量不设哑变量,这样可以节省自由度,准确度会更高一些,3、非有序变量的三分类以上的变量必须设为哑变量,否则会影响结果。
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
yiruodongchuan + 1 + 1 + 1 + 1 观点有启发

总评分: 论坛币 + 1  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

8
ge1986505 发表于 2013-10-7 16:26:40
真是好心人啊,捧捧场

9
空气水花 发表于 2014-1-6 19:41:16
这个贴很实用,顶起

10
YUZCP 发表于 2014-2-17 15:30:31

偶也学习了

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-24 12:08