想了解整个事情的来龙去脉,可以看这个帖子:https://bbs.pinggu.org/thread-2181842-1-1.html
以及https://bbs.pinggu.org/thread-2214389-1-1.html
中
国家庭金融调查与研究中心自2009年夏天开始,投入了大量的人力、物力进行全国范围的调查,以便于对中国经济运行状况做深入的分析,为制定公共政策提供科学的依据。近来,我们的工作似乎受到一部分人的格外关注。其中的代表人物岳希明、李实教授最近就我们的工作在华尔街日报中文版接连发表两篇文章。我们感谢两位教授对我们工作的批评和指教,相信两位的一些见解是基于对我们数据的误解和误读,并不是有意的曲解。为此,我们对两位教授最近发表的《对西南财大基尼系数的再质疑》(以下简称《再》文)做出回应,这也是最后一次对两位教授涉及到学术争论的部分做出的回应。
相关报道
我们更应该相信谁的基尼系数?
以公开科学的抽样调查揭示真实的中国
对西南财大基尼系数的再质疑
如何看待中国官方的基尼系数?在回应之前,先再次介绍一些统计学的基本常识。众所周知,统计分析是对从一个总体里抽取的样本进行建模、计算和分析。因此,统计分析的结果是否能反映总体的真实情况取决于样本是否随机、模型是否正确、计算有没有错误以及对模型的分析是否用了恰当的方法。任何一个环节的错误都会导致最后结果的误导。通常,限于经费和时间的限制,样本是从总体中抽取的很小部分,因此为了保证统计分析结果能反映总体的真实情况,样本的随机性是至关重要的。
至于样本量的大小,既不是“能很好反映总体情况”的必要条件,也不是它的充分条件。一个样本量只有100的随机样本,照样能很好地反映总体情况;相反,即使一个样本量为100万的样本也并不一定能很好地反映总体情况。样本量大小的真正作用是决定统计分析结果的误差。至于样本量需要多大,这与需要反映的总体标准差有关。如果用8438户来推断总体均值,抽样误差约是总体标准差的1%。岳、李两位教授关于“8400多户的样本量是否能很好地反映总体情况”的问题不是一个学术问题,而是个人的观点问题。
关于抽样与权重的再说明
根据CHFS数据计算得到的城镇家庭与农村家庭的比重为54:46,城乡人口比例为49.7:50.3。2010年第六次人口普查数据显示,中国城镇和农村的家庭比例为51.6:48.5,城乡人口比例为50.3:49.7。CHFS城镇家庭与农村家庭比重与第六次人口普查的数据有细小偏差,而城乡人口比例已经非常接近,这从侧面表明了CHFS数据的准确性,这样的结果在《再》文中被解读为数据“有一定的偏差”,并作为质疑CHFS数据的主要根据之一,恐怕有失公正。
而且,在CHFS的抽样说明中已经明确指出,第一阶段抽样设计的主要目的是保证样本市县人均GDP的分布与总体尽量一致,而非地理分布一致。抽样的事实也证明了这一点,CHFS样本市县与总体市县在人均GDP的分布上非常一致。在此基础上,我们也主动指出样本在地理分布上与总体存在差异。从上述两个方面可以看出,地理分布的差异并不一定会导致对收入分布估计的偏差,不能将地理分布与收入分布等同,从这个角度质疑CHFS数据的准确性是完全站不住脚的。
关于数据准确性的再说明
对于收入数据的准确性我已经在《以公开科学的抽样调查揭示真实的中国》中进行了非常详细的说明。作为一项专业的调查,CHFS的收入口径是按照统计局的标准设立的,涵盖内容非常全面。我们收集了家庭工资收入、农业生产收入、工商业生产收入、资产性收入、转移收入等信息。与其他部分一起,问卷总共涉及600多个问题。首轮调查为了节约面访时间,增加受访户的配合程度,我们着重询问了户主与配偶的工资收入信息,但需要强调的是,以家庭为核算单位的收入均被询问。同时,在后续的季度回访中,我们再次询问了家庭总收入和总工资收入情况,对首轮的收入数据进行了必要增补。在发布的数据中单独生成了变量记录这部分补充信息,而不是在原始数据上直接更改。《再》文作者指出的“这类信息在公布的数据中并没有体现”是毫无根据的。
对农户自产自销部分的核算,CHFS在问卷中明确询问了受访家庭在上一年所有农业生产项目生产的农产品按市场价格计算的总价值,以及上一年从事农业生产经营的总成本,并据此计算农业生产的净收入,不存在《再》文中对农业收入质疑的问题。根据统计局的数据,2010年收入最低20%的家庭,家庭经营性纯收入占家庭总收入的比重为50%,而根据我们的数据,该比重为53%,没有低估农户自产自销的收入。
《再》文作者认为我们夸大了“记账式”收入调查的缺陷,虚夸了“回忆式”调查的优势。需要澄清的是,我们只是客观陈述了“回忆式”调查和“记账式”调查各自的特点,以及回忆式调查被国内外广为采用的客观事实。我们一再强调,两种调查方法各有优缺点,说哪种调查方法更优并无根据。反倒是《再》文作者在承认“记账式”调查存在缺陷的情况下,对“回忆式”调查方式全盘否定,得出“记账式”方法优于“回忆式”调查这一结论,进而全盘否定CHFS数据的可靠性,对这样的“质疑”不仅我们不能接受,国际上绝大多数抽样调查机构也不会接受。
对于数据细节方面的问题,感谢岳、李两位教授(以质疑的方式)给我们发回第一份用户反馈,但是两位的指责是完全没有事实根据的。根据我们的数据,家庭户主在城镇地区且有工作的有3167户,至于《再》文所称“回答有工作的2916人城市家庭户主”,不知道如何计算而来。而在3167户中,有2071户家庭户主是受雇于他人,只有这部分户主的职业单位信息以及职业所属行业特征才会被收集。剩下的家庭或从事私营企业,或在家务农,对这部分家庭的信息收集将跳到后面的相关问题,这是正常的问卷跳转。而在这2071户家庭中,回答职业信息的有1967户,占比95%,根本不是《再》文所说的“31%缺少职业信息”。回答所属行业信息的为100%,也与《再》文所描述的“31%没有行业所属信息”相差甚远。《再》文中“62%家庭未填报工作单位性质”也是毫无根据的。我们无从得知《再》文作者所提到的数据是如何计算的,也不敢揣测其动机。《再》文作者将正确的问卷跳转理解为数据缺失,对此我更愿意相信是对我们工作缺乏了解,工作疏忽、计算错误和误读所致。



雷达卡








京公网安备 11010802022788号







