请选择 进入手机版 | 继续访问电脑版
楼主: spssau
1076 2

[学习资料] 数据分析中的哑变量问题如何处理? [推广有奖]

  • 0关注
  • 5粉丝

讲师

45%

还不是VIP/贵宾

-

威望
0
论坛币
2 个
通用积分
213.9138
学术水平
3 点
热心指数
3 点
信用等级
3 点
经验
8615 点
帖子
216
精华
0
在线时间
414 小时
注册时间
2018-1-14
最后登录
2021-10-19

spssau 发表于 2021-7-16 11:19:06 |显示全部楼层

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
什么是虚拟变量?

哑变量又称虚拟变量,是人为设定的用于将分类变量引入回归模型中的方法。

为什么要使用虚拟变量

在回归分析中,自变量X既可以是定量数据也可以定类数据。回归分析计算时是将所有自变量X视为数字,但当数据为定类数据时,此时数字代表类别,数字大小本身没有比较意义。因此,这类数据在做回归分析时,需要设置成虚拟变量才能纳入回归分析正确分析数据。

哪些分析方法会使用到虚拟变量

通常情况下,回归分析,逐步回归,分层回归,Logistic回归,PLS回归等这类影响关系研究的方法时,才可能涉及到虚拟变量设置。其它分析方法并不会涉及。

如何使用哑变量

用一个例子说明:研究性别和工龄对基本工资的影响情况。

工龄是定量数据;性别为二分类数据,因而分析时性别不能直接放入回归模型,正确做法是将变量转化成取值为1和0的虚拟变量。

性别分为两类,因而需要设置2个虚拟变量(2列),分别表示男性和女性两个类别。

如果是男性,‘性别_男’虚拟变量取值为1,‘性别_女’虚拟变量取值为0。如果是女性则相反。


当变量分类超过两类时,也是类似的处理方式,在回归分析前将下面的“专业”类别转化为虚拟变量,结果如下图所示:

理科类取值=1代表专业为理科,0代表非理科

文科类取值=1代表专业为文科,0代表非文科

工科类取值=1代表专业为工科,0代表非工科


操作步骤:

SPSSAU可直接一步生成虚拟变量,具体操作如下:

使用步骤:SPSSAU→数据处理→生成变量

分析时,要注意少放入一个虚拟变量。如果分为两类就放入一个虚拟变量,三类就放入两个,以此类推。

原因在于虚拟变量包括数字0和1;0是对比参考项。如果2个类别都放入了,就没有参考类别了。

如何解释分析结果

数据来源:《统计分析与SPSS的应用》

由上表可知,回归模型通过F检验,性别_男一项P<0.01,说明性别对基础工资确实存在显著的影响关系。

模型公式为:月基本工资=2403.834 + 42.659*工龄 + 1377.873*性别_男。

当“性别_男”取值为1表示男性的月工资回归方程,0表示女性的月工资回归方程。回归系数值为1377.873,因此说明相同工龄下,男性的月基本工资比女性多1377.88元。

相反,放入的分析项若为性别_女,回归系数值应为-1377.873,代表同工龄的条件下,女性的月基本工资比男性少1377.88元


其他说明
  • 将虚拟变量放入回归中,一定要少放一个虚拟变量,否则系统会提示存在多重共线性问题。
  • SPSSAU会默认生成标题,设置完成后可进行‘标题修改’。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:哑变量问题 数据分析 哑变量 logistic回归 logistic

www.spssau.com
stata SPSS
aerie1 发表于 2021-7-19 18:20:14 |显示全部楼层
偶然发现的论坛,不错诶

使用道具

spssau 发表于 2021-7-20 18:48:26 |显示全部楼层
aerie1 发表于 2021-7-19 18:20
偶然发现的论坛,不错诶
感谢您的支持。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2021-10-19 22:51