最近在做一篇文章,里面设计了一些样本选择性的问题,又看到文献中的two part model
有点晕,所以抽时间就把这部分从头梳理了一遍。
样本选择性一般也和取值的限制有关,所以这里梳理的模型包括:断尾、归并、样本选择,三个模型。
第一个模型:连续变量断尾模型。
1. 描述:这里断尾指的是因变量Y(连续变量)的取值在大于等于某个阈值c的时候才能被观测到,比如规模以上的企业数据。而不满足这个条件的,直接就不在样本中,就断掉了,删掉了,或missing。
2. 问题:此时,样本中的数据,我们就不能再假设是具备正态分布。因为全样本才能假设正态分布。此时在回归的时候,就不能再直接使用ols回归
3. 处理:使用 truncreg 命令回归。明确是左断尾ll(),还是右断尾ul(),以及阈值就可以了。
第二个模型:离散变量断尾模型
1. 描述:这里断尾指的是因变量Y(离散变量)的取值在大于等于某个阈值c的时候才能被观测到,比如只有正整数才能被观测到,离散变量取0的时候,观测不到。这种情况可以称为“零断尾泊松回归or零断尾负二项回归”。因为因变量是离散变量,所以我们一般假设分布是泊松分布,或者负二项分布。
2. 问题:同上。
3. 处理:零断尾泊松回归使用ztp回归,零断尾负二项回归使用ztnb。这里直接默认的就是0观测不到,所以不需要再指定。
第三个模型:样本自选择导致断尾 (Y 出现missing)(这种也叫偶然断尾) (陈强,237页)
1. 描述:在研究劳动力供给时间(Y)时,有些人的Y观测不到,是missing。这种情况不是简单的Y超过某个阈值才能被观测到的问题,而是有可能存在样本的自选择,举例来说,就是个体会根据工资wage的高低来决定是否进入劳动力市场,供给劳动,而不是根据劳动时长(Y)的取值来决定的。
这个时候就要考虑到个体的自选择的影响。是样本自己根据某些变量的取值先决定是不是进入劳动力市场,然后才有进入劳动力市场里面后,决定供给多少劳动时长的。
2. 问题:也是因为样本有些观测不到,导致可观测到的数值可能不满足正态分布,导致样本有偏的情况。
3. 处理:heckman两步法,命令为heckman,明确第一步的样本自选择是依赖于哪些变量进行的就可以。
第四个模型:归并模型
1. 描述:这里归并指的是因变量Y的取值在小于等于某个阈值c的时候,都直接被取值为c,有可能不是真实的Y的取值。
2. 问题:同上。导致了样本的分布假设不成立。
3. 处理:命令为tobit,明确阈值是多少就可以。 左归并ll(),右归并ul()
第五个模型:样本自选择 两部门 two part model
1. 描述:这个模型和heckman的两步法很像,也是说有些Y 的missing,是因为另外一个变量导致的。所以真实的过程有两步,第一步是决定是否进入劳动力市场,若不进入,则Y missing。第二步是进入劳动力市场之后决定供给多少劳动力。
或者说,现实的数据也可能是这样的,进入劳动力市场的Y都大于零,其他的missing都赋值为零。Y体现出归并的特点,但是本质是一样的。
但是two part model假设这两个步骤之间独立,残差项相互独立。所以这两个步骤的估计可以独立进行。
2. 问题:同上。
3. 处理:第一步,选择是否进入,就直接使用probit回归。
第二部,决定劳动力供给,就直接限制在进入劳动力市场中的人中(例如Y大于零)进行ols回归就可以了。第一步的结果不会干扰。


雷达卡



京公网安备 11010802022788号







