楼主: cherry_wyj
30202 15

[数据管理求助] 受教育程度能不能直接赋值1-8? [推广有奖]

  • 7关注
  • 1粉丝

硕士生

90%

还不是VIP/贵宾

-

威望
0
论坛币
38 个
通用积分
0.0045
学术水平
4 点
热心指数
6 点
信用等级
2 点
经验
4282 点
帖子
117
精华
0
在线时间
194 小时
注册时间
2014-7-21
最后登录
2019-1-24

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
如果原始数据中受教育程度是这样表示的:1 文盲/半文盲 2 小学 3 初中 4 高中/中专/技校/职高 5 大专 6 大学本科 7 硕士 8 博士,那么在回归方程中能不能直接用这些数值表示受教育程度?还是必须要构建虚拟变量或者转换为受教育的年限?


感觉应该是不行的,但万一行呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:受教育程度 教育程度 回归方程 大学本科 原始数据 大学本科 博士 初中 大专 高中

沙发
wudizhao 发表于 2015-3-4 17:52:49 |只看作者 |坛友微信交流群
应该是需要设置虚拟变量

使用道具

变量粗略分三种:间距变量、比例变量、分类变量。
间距变量:数值能体现出相互之间的差距,相加减都有意义
比例变量:除了满足以上,还满足相除有意义,身高体重都不是比例变量,因为谁是谁体重身高几倍或者一点几倍没有意义。
分类变量:数值不能体现出相互差距。

受教育程度就属于分类变量。它只有类别的意义,你把他们命名为1-8,这并不能说明小学和文盲的差距与小学和初中的差距是相同的,后面也一样,他们之间的差距是不同的甚至不可衡量的;更不能说明高中和小学的差距是小学和文盲的差距的两倍。
如果你在做回归的时候把他们赋值为1-8,那么就会有上述的意义。解释的时候,你就要讲,当教育程度增加1时,收入(比如说)增加多少;增加2时又怎样。或者教育程度增加百分之1时怎样怎样,这些都是很荒谬的。
因为从小学跳到高中和从高中跳到大学虽然都是加一,但是差距不一样,造成的效果也不同。
所以,你应该做7个虚拟变量,不能用8个,为防止完全共线性。然后把这7个变量加进去。
已有 4 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
葫芦娃大王 + 1 + 1 + 1 精彩帖子
SpencerMeng + 1 + 1 分析的有道理
cherry_wyj + 1 + 1 + 1 多谢指教
蓝色 + 4 + 2 分析的有道理

总评分: 经验 + 1  论坛币 + 1  学术水平 + 7  热心指数 + 4  信用等级 + 1   查看全部评分

使用道具

板凳
Alfred_G 学生认证  发表于 2015-3-4 23:24:59 |只看作者 |坛友微信交流群
一般研究教育时候都是将它们处理成教育程度(高中低)的虚拟变量;
或者按照受教育程度赋值:文盲=0;小学=6;初中=9;高中(职高,中专)=12;大学专科=14;大学本科=16;硕士及以上=19。这样就转化成了数值型变量。
已有 6 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
wsk521 + 1 + 1 + 1 精彩帖子
QZYO + 1 + 1 精彩帖子
bdim + 1 + 1 + 1 + 1 提醒了我。谢谢
葫芦娃大王 + 1 + 1 精彩帖子
tomonica8 + 1 精彩帖子
cherry_wyj + 1 + 1 + 1 谢谢

总评分: 经验 + 1  论坛币 + 2  学术水平 + 4  热心指数 + 5  信用等级 + 3   查看全部评分

使用道具

报纸
cherry_wyj 发表于 2015-3-5 14:09:19 |只看作者 |坛友微信交流群
o梧桐叶落o 发表于 2015-3-4 22:15
变量粗略分三种:间距变量、比例变量、分类变量。
间距变量:数值能体现出相互之间的差距,相加减都有意义 ...
您好,再问一个问题哈

我按您的方法得到以下的结果(以文盲/半文盲为基准组),那么比较不同受教育程度对于因变量的影响是不是只要比较相应系数的大小就可以了?比如说_Idiploma_3的系数比_Idiploma_2大,是不是可以说明初中对因变量的正向影响比高中大?

                         Coef.
_Idiploma_2        0.07**
_Idiploma_3        0.19***
_Idiploma_4        0.21***
_Idiploma_5        0.22***
_Idiploma_6        0.25***
_Idiploma_7        0.23
_Idiploma_8        0.08

使用道具

地板
o梧桐叶落o 发表于 2015-3-14 00:32:05 |只看作者 |坛友微信交流群
cherry_wyj 发表于 2015-3-5 14:09
您好,再问一个问题哈

我按您的方法得到以下的结果(以文盲/半文盲为基准组),那么比较不同受教 ...
对,是这样。
值得一提的是,7和8不显著,尤其是7系数还比较大。可能是因为标准差比较大,看了一下编号,是硕士和博士,那么在你的样本里面这两组的数量应该是很小的,那么在硕士和博士里面变异性就不是很大,就会导致这种状况。解释这两个系数的时候应该谨慎。一个可能的办法是把7和8合成一组(硕士或博士),可能会靠谱一点。

另外,说一下,上面那位仁兄说把教育程度转化成教育年数。这里有两个问题:
1. 4、5、7、8的教育年数是不确定的。比如硕士有专业硕士和学术硕士,我国专业硕士一般是2年,学术硕士一般是3年。而国外,比如MFE有1年,也有1年半的。至于高职、技校、大专、中专这些也都是不确定的。
2. 你的原始数据是教育程度并不是教育年数,从年数上讲是不连续的,转化成教育年数还是会导致变异性不大的问题,而且你转化成的教育年数包含的信息实际上和以前一样多。另外,拿到这个学历并不代表在这之后他没有进一步读书,只是没拿到文凭而已。(当然,你可以说一种观点是“教育是不可分的”,尤其是对于信号作用比较大的部门或者深信此理论的人)不过,一般来说,不建议那样做,除非真的有什么特殊要求要得到以年为单位的结果而又无法得到更精确的数据。

使用道具

7
待到心飞 发表于 2015-6-15 21:47:31 |只看作者 |坛友微信交流群
Alfred_G 发表于 2015-3-4 23:24
一般研究教育时候都是将它们处理成教育程度(高中低)的虚拟变量;
或者按照受教育程度赋值:文盲=0;小学 ...
我也在做这个,请问一下,我通过你说的这个方式把教育程度赋值,用的recode命令,但是这样做了并没有转成连续变量,因为后面用这个新生成的赋值的变量做的图不是光滑的曲线,是分段的,还是定序变量..........能告诉我将教育程度转换为连续变量的具体的、完整的stata命令吗?不甚感激!

使用道具

8
Alfred_G 学生认证  发表于 2015-6-17 15:34:38 |只看作者 |坛友微信交流群
待到心飞 发表于 2015-6-15 21:47
我也在做这个,请问一下,我通过你说的这个方式把教育程度赋值,用的recode命令,但是这样做了并没有转成 ...
对,是这样的。我们 重新按照他们就学的时间来编码,得到的是一个“离散的定距变量”,这个定距变量具有相应的数学特征,值域也比较宽,可以进行更多类型的计算。
命令是
recode edu(0=0)(1=6)(2=9)(3=12)(4=14)(5=16)(6/7=19),gen(edu_new)
这个转换是一个经验的转换,大致按照这个情况,约定俗成吧。因为问卷里不会有专硕和学硕这种区分,也不会说人大硕士两年,清华硕士三年这种,一般我们都把硕博按照19年受教育程度。

使用道具

9
liao@hu 发表于 2018-2-8 15:49:17 |只看作者 |坛友微信交流群
各位前辈可以分享下载设置七个虚拟变量时的软件操作吗?
计量软件小白,在作毕业论文

使用道具

10
葫芦娃大王 学生认证  发表于 2018-2-8 16:25:59 |只看作者 |坛友微信交流群
Alfred_G 发表于 2015-3-4 23:24
一般研究教育时候都是将它们处理成教育程度(高中低)的虚拟变量;
或者按照受教育程度赋值:文盲=0;小学 ...
请问有文献支持吗?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 08:08