连老师,假期快乐!!
1、前面工作的情况:CHNS的数据库分为多个子集,我的研究涉及家庭收入、家庭资产情况、家庭成员受教育情况、家庭成员健康情况、家庭成员社会资本情况、家庭成员医疗保险情况等,所以需要进行数据合并,因为既有家庭特征的,又有家庭成员特征的,(hhid表示家庭编号,line代表家庭成员编号,wave代表年份),所以我就运用merge m:m hhid wave的命令先将有关于家庭收入、家庭资产情况的数据合并,再运用merge m:m hhid line wave的命令将家庭成员受教育情况、家庭成员健康情况、家庭成员社会资本情况、家庭成员医疗保险情况等选取重要变量后进行合并。最后merge m:m hhid wave 将前面形成的两个大的数据库合并(不知道这样合并的思路是否正确)。
这样产生的问题就是数据被扩展开,进行xtset hhid wave 命令,出现“repeated time values within panel”的错误提示,改用您教我的命令egen iid = group(hhid line), 然后再xtset iid wave,就没有报错,之后我又筛选出1989-2009年八次都成为被调查的样本。(但这样做损失很多样本)。
2、现在遇到的问题:
(1)上面分析的思路是否正确?有没有更合理的分析方式。。
(2)如果想得出户主和儿子的相关变量,怎么得出?
我的Stata做法:比如户主和儿子是否有正规工资收入的变量,CHNS中的的变量是c7b,我运用生成命令gen hwage=c7b if A5==0(A5==0代表户主),以及gen zwage=c7b if A5==3(A5==3代表儿子、女儿),结果发现数据缺失很厉害,并且如果进行户主和儿子的工资收入回归分析时出现错误提示“0样本”,所以证明我的这种变量设置肯定是不对的,所以想请教您如何得出这些变量?
(3)现在面板中的截面是以家庭成员为单位的,但如果要以家庭为单位计算相关的值该怎么操作?