楼主: cherry_wyj
36179 19

[数据管理求助] 受教育程度能不能直接赋值1-8? [推广有奖]

11
bdim 发表于 2018-11-10 11:43:36
Alfred_G 发表于 2015-6-17 15:34
对,是这样的。我们 重新按照他们就学的时间来编码,得到的是一个“离散的定距变量”,这个定距变量具有相 ...
谢谢,您的回答对我很有启发

12
瞅自己怎么别扭 发表于 2020-1-11 16:16:23
Alfred_G 发表于 2015-3-4 23:24
一般研究教育时候都是将它们处理成教育程度(高中低)的虚拟变量;
或者按照受教育程度赋值:文盲=0;小学 ...
你好,打扰了,请问这样处理的方式来自哪一篇文献啊 谢谢

13
地外星球小世界 发表于 2020-4-15 10:33:20 来自手机
你好

14
地外星球小世界 发表于 2020-4-15 10:35:05 来自手机
在CGSS里也是这样,可以和主观地位做相关吗?

15
7945_1573892162 发表于 2023-1-14 14:25:57
Alfred_G 发表于 2015-3-4 23:24
一般研究教育时候都是将它们处理成教育程度(高中低)的虚拟变量;
或者按照受教育程度赋值:文盲=0;小学 ...
请问这么做有什么参考文献吗?还是大家一般默认都是这么划分的呢?感谢回复!

16
努力的统计人 发表于 2023-8-5 16:04:12
我有一个问题 做回归的时候 比如有一个解释变量是受教育年限 他的取值有小学、初中、高中三种。然后在ols回归结果里面,分别显示了小学、初中、高中三个各自的回归系数,这咋做到的啊?就是他们会有基准组的存在 比如以初中作为基准那种

17
小嘉是个神经病 在职认证  发表于 2024-7-6 14:51:37
努力的统计人 发表于 2023-8-5 16:04
我有一个问题 做回归的时候 比如有一个解释变量是受教育年限 他的取值有小学、初中、高中三种。然后在ols回 ...
mlogit回归

18
yangduoduo6789 发表于 2024-7-25 09:26:03
Alfred_G 发表于 2015-3-4 23:24
一般研究教育时候都是将它们处理成教育程度(高中低)的虚拟变量;
或者按照受教育程度赋值:文盲=0;小学 ...
我最近也是做这个,请问代码是这样吗,我运行出来有点问题(I2_1是我的变量名)
gen 受教育年限=0 if I2_1_==1
replace 受教育年限=6 if I2_1_==2
replace 受教育年限=9 if I2_1_==3
replace 受教育年限=12 if I2_1_==4
replace 受教育年限=12 if I2_1_==5
replace 受教育年限=14 if I2_1_==6
replace 受教育年限12 if I2_1_==7
replace 受教育年限=12 if I2_1_==8
replace 受教育年限=12 if I2_1_==9
replace 受教育年限=15 if I2_1_==10
replace 受教育年限=19 if I2_1_==11
tab 受教育年限
我运行完显示I2_1_ ambiguous abbreviation是我哪里编错了吗

19
chongqibai 发表于 2025-1-9 21:06:27
肯定是要分虚拟变量的,不然你怎么解释系数的经济学含义啊,没法解释

20
赵安豆 发表于 2026-2-28 17:40:14
在统计分析和建模中,确实经常可以看到将有序分类数据(如本例中的“受教育程度”)直接以数值形式纳入回归方程的情况。这样做是可行的,尤其是当这些数值按其内在顺序排列时,模型能够捕捉到这种顺序性,并反映在预测结果上。

不过,在使用这些数值时需要注意以下几点:

1. **线性假设**:直接将有序分类变量作为连续变量使用意味着你假定了受教育程度对因变量的影响是线性的。例如,从“文盲/半文盲”(值为1)到“博士”(值为8),每增加一个单位的教育水平都具有相同的效果。这可能不是实际情况——比如,“小学”到“初中”的提升与“硕士”到“博士”的影响可能并不相同。

2. **非线性转换**:如果模型诊断显示这种直接使用数值的方式不理想,可以考虑对变量进行非线性转换(如平方、开方或取对数),或者采用多项式回归等方法来捕捉更复杂的教育水平与因变量之间的关系。

3. **虚拟变量**:另一种处理有序分类数据的方法是构建虚拟变量。例如,创建一系列二元变量,每个代表受教育程度的一个类别。这可以避免线性假设的问题,但会增加模型的复杂度和参数的数量。

4. **分数编码**:还有一种方法是给定一个更合理的数值表示(比如根据学制年数或其他标准),这种做法既考虑了教育层次又避免了简单的整数顺序可能带来的偏差。

5. **回归诊断与解释**:无论采用何种方法,都应该进行充分的模型检查和效果评估。这包括但不限于残差分析、检验异方差性、多重共线性以及对结果的实质性解释等步骤。

总之,在决定是否直接使用数值表示受教育程度时,应根据具体数据特点及研究目的作出判断,并考虑以上提到的各种处理方法及其潜在局限。

此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用



您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-4-2 04:11