说明:
1.以下内容基本上是当时计量老师王老师汇总的成果。
2.可参考书籍是 Limited-dependent and qualitative variables in econometrics (G.S. Maddala, 1983) Ch.1 & Ch.6
1) Truncated data: some responses are truncated and will not enter the database.
Censored data: some responses are ccensored and will not reveal the full information.
所以,两者的区别之一是数据库中是否有这个数据,truncated data 没有进入数据库中,也就是没有成为你的观测值;censored data 中有这个观测值,但是因为有上/下限问题不能全部表示出来。
2) 例子:
Truncated data:书中举了一个例子 negative income tax 也就是政府向贫困线(假设是50,000元)以下的人或家庭提供收入资助,所以如果当局想要了解接受资助的家庭对该计划的满意度,那么年收入在50,000元以上的人就会被truncated掉,他们没有进入调查中,数据库中没有他们的资料。反之,举一个没有被完全truncated的例子,比如美国的财税资料库,美国公民需要报税,基本上政府掌握的收入资料是完整的。但是也不是完全完整,因为也存在一些不报税(拾荒老人)或者避税(非常有钱的人)的情况。
Censored data: 比如一个药品上市之前进行实验,假设实验周期是5年,如果接受实验的人在第2年去世,则不算是censored data,但是如果在5年零1天去世了,他/她的数据就会成为censored data。因为我们无法看到在调查周期以外的状况。另一个更简单的例子,我们考试的成绩最高分是100分,超过100分的就被censored 掉,因为有些同学知识掌握程度可能是超过100分的,但是上限在这里。我们无法比较出3个同时获得100分同学谁掌握的知识更牢固。


雷达卡




京公网安备 11010802022788号







