19051 0

[问答] 稳健性检验部分常用方法 [推广有奖]

  • 0关注
  • 0粉丝

本科生

48%

还不是VIP/贵宾

-

威望
0
论坛币
187 个
通用积分
7520.9483
学术水平
1 点
热心指数
1 点
信用等级
1 点
经验
1163 点
帖子
44
精华
0
在线时间
35 小时
注册时间
2022-3-21
最后登录
2024-5-21

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

1.替换因变量

周京奎 (2019) 在研究农业生产率和农村家庭的人力资本积累关系时发现随着农业生产率提高,农村家庭倾向于进行教育投资,进而提升了家庭人力资本积累。在本文中作者首先采用家庭教育支出和家庭学杂费支出来衡量教育投资。在随后的稳健性检验章节中,作者将被解释变量替换为家庭教育支出占当年家庭收入的比例,考察农业生产率对教育支出占比的影响,进一步验证了农业生产率对人力资本投资影响的稳健性。

类似的文章可参考刘畅 (2017) 研究子女外出务工对农村父母身心健康的影响的文章,其中考虑到健康的多维性,采用了另外 6 个健康指标进行稳健性检验。

谭远发 (2015) 研究父母政治资本如何影响子女工资溢价的影响时,考虑到实际工资与保留工资正相关,因此将正文中子女的实际工资替换为保留工资进行稳健性检验。

李春涛 (2020) 研究金融科技发展对企业创新的影响时将企业的专利申请数量作为反映了企业的创新产出水平的衡量标准之一,随后作者进一步运用企业研发支出总额占销售收入的比例更替企业创新的度量指标进行稳健性检验。

此外孟美侠 (2019) ;罗勇根(2019) ;陈强远 (2019) ;顾夏铭 (2018) 等都采用了替换因变量的方法进行了检验。

这里需要注意的一点是,除了替换因变量,学者有时还会对因变量进行一些修正,比如王雄元(2019) 在检验国际贸易增加如何影响企业创新行为时考虑到未取自然对数的专利申请量数据为离散型变量,且其分布中存在大量 0 值,可能不符合正态分布的假定,因此采用泊松模型回归处理被解释变量非正态分布问题。

2.替换自变量

蔡晓慧 (2016) 在研究地方政府基础设施和企业技术创新关系时,正文部分讨论中使用的地方政府基础设施的数据来自于金戈 (2016) 估算的省级基础设施资本存量数据,而在稳健性检验中采用了地级市市辖区道路密度代表基础设施资本存量。因为道路交通是重要的基础设施,也是企业通过扩大市场规模取得规模经济的前提,道路交通的密度在一定程度上也反应了基础设施的基本存量。

替换自变量的文章比比皆是,可参考 刘怡 (2017) ;李卫兵 (2019) ;董香书 (2012) ;周颖刚 (2019) ;申广军 (2017) ;孙传旺 (2019) ;顾夏铭 (2018) ;梁斌 (2020) ;于斌斌 (2015) ;刘啟仁 (2020)。

3.放宽因变量或自变量条件

除了替换自变量与因变量外,学者有时还会对因变量或自变量的选择条件进行放宽,例如陈仕华(2015) 在研究国企高管政治晋升对企业并购行为的影响时,对被解释变量的衡量主要是基于董事长或总经理是否调任政府部门职位来判定高管政治晋升,考虑到董事长或总经理升任集团层面的董事长或总经理,或者升任集团层面的党委或党组书记时,国企高管的行政级别也得到了提升,因此在稳健性检验部分借鉴王曾等 (2014) 的测量方法,将高管职位变更去向出现以下情况时均视为晋升:平级或者更高级别的政府部门职位、集团层面的董事长或总经理、集团层面的党委或党组书记。以此替代变量进行测试。

上文中,我们介绍了稳健性检验的概念,目的以及常用的一个角度 (变量替换法) ,这篇文章我们将继续介绍稳健性检验的其他角度。从上篇推文可以看出,有些文章出现了不止一次,这说明,每一个稳健性检验的方法都是不是独立存在的,在一篇文章中学者可以根据自己的需要可以选择多个稳健性检验的方法,比如罗勇根 (2019) 在研究空气污染、人力资本流动与创新活力的关系一文中,一共采用了 8 种方法从多个维度来检验自己文章的稳健程度。

我们需要注意的是,稳健性检验的意义在于我们需要保证,文章得出的结论不会根据现在使用的数据的变化而发生巨大的变化,比如当其他人使用了一份相似的数据,或者当本文数据的样本量发生不同时,你的结论依然成立,这才能保证结论的可靠性。

4.加入遗漏变量

除了前文所举的例子以外,梁斌 (2020) 在探讨失业保险金对失业者求职努力的影响时,将失业者在日志日搜寻工作的小时数作为因变量,失业者领取到的失业保险金作为自变量,并控制了个体特征变量以及家庭特征变量,加入了省份虚拟变量后,在稳健性检验部分提出,失业保险金对失业者来说是确定性的收入,因此本文预期厌恶风险的失业者 (risk-aversion) 更可能领取失业保险金,也更可能为了日后稳定的收入而积极寻求工作,因此又将风险这一变量纳入了考量。

类似的加入更多控制变量的文章可以参考蔡晓慧 (2016) ;陈仕华 (2015) ;张龙鹏 (2016) ;李春涛 (2020)

5.加入各类虚拟变量

需要注意的是,加入遗漏变量有时不仅仅指加入更多的变量,也包括控制其他层面的固定效应,比如施炳展 (2020) 在研究互联网对制造业企业分工水平的影响时提到,在前文中作者只控制了年份固定效应和企业固定效应,虽然大多数企业并不会更换省份和行业,但是这种可能性是客观存在的,因此如果不加入省份和行业固定效应,有可能遗漏省份和行业层面不随时间改变的重要变量,从而使估计结果有偏和不一致。为了避免这一问题,作者在保留年份和企业固定效应的基础上,进一步加入了省份和行业固定效应。

类似的文章可以参考柳光强 (2018) ;孙传旺 (2019) ;罗勇根 (2019)

6.分样本回

由于不同的样本对于所得的结果具有不同的敏感性,因为在稳健性检验时,也常常进行分样本回归,常见的分类方法用按照人口规模分类,按照地理位置分类,按照城乡分类,按照性别不同分类等等。

比如,刘怡 (2017) 在研究婚姻匹配对代际流动性的影响时提出婚姻匹配是中国代际传递的重要机制,尤其是对女性而言,父代收入通过婚配市场作用于子代配偶的个人收入,形成代际传递,影响子代家庭收入。在稳健性检验中,作者根据子代的城乡分布,将子代样本划分为城镇和乡村样本,比较分析城镇和乡村地区的代际流动性及其婚姻匹配机制在代际传递中的影响,结果发现,城镇地区多依赖于婚姻匹配机制,而农村地区侧重于人力资本投资。

类似的分样本回归方法,可以参考杨仁发 (2013) 研究产业集聚与地区工资差距之间的内在联系的文章;蔡晓慧 (2016) 研究地方政府基础设施和企业技术创新关系的文章;刘畅 (2017) 研究子女外出务工对农村父母身心健康的影响的文章;申广军 (2017) 研究减税对中国经济的影响文章等。

当我们在所得的整个数据集范围内进行分析时,常常会发现改变不同的时间段,得到的结论可能会完全不同。也许某一结论在某一时间段内得到的结果符合我们的预期,而当我们往后退 10 年,或者往前推 10 年再次回归,就会发现得到的结论完全不同!因此,选择正确的研究时间段也显得十分重要。在稳健性检验中,我们可以通过扩宽时间长度或者缩短时间长度来检验我们的结论。

7.扩展时间窗口

仇童伟 (2019) 在研究宗族代理人对村庄地权变更的影响时在第一个稳健性检验方法中提到,村庄的丧葬习俗表征了社区开放程度,在原文中采用了 2012-2014 的数据,而在稳健性检验中补充采用 1990-2014 年村庄丧葬习俗进行了处理。因为与仅采用 2012-2014 年丧葬习俗相比,采用 6 个时期的丧葬习俗可以规避单一时期测量造成的误差。类似的文章还包括朱晓文 (2019) 研究家族企业代际传承的文章中。

为了探讨长期的影响,除了扩展时间窗口外,陈冬华 (2018) 在研究产业政策与股价同步性的关系中提到,产业政策作为一种国家级政策,每五年发布一次,影响周期为五年。因此,作为一种长期政策,其对企业的影响可能存在长期性,文章的研究区间应该扩展至全年度而非短时间区间范围。基于此,参考错层事件双重差分方法,文章进一步探究了国家产业政策影响股价同步性的长期表现。

8.缩短时间窗口

李卫兵 (2019) 在研究空气污染对企业生产率的影响时在稳健性检验部分提到该文选定的样本期为 1998-2013 年,而大部分基于中国工业企业数据库进行研究的文献主要利用1998-2007 年的企业数据,虽然该文对某些缺失的数据根据相关的会计准则进行了补齐处理,为避免处理后的数据干扰实证结果,作者将样本调整为 1998-2007 年,并重新进行 RD 估计。

缩短时间窗口的另一个好处是可以排除其他政策的影响,比如王雄元 (2019) 在研究“一带一路”如何影响企业创新行为的研究中提到,中国于 2013 年正式提出“一带一路”倡议,因此在样本仅保留 2013 年及以后开通“中欧班列”的样本有助于将本文的研究统一置于“一带一路”倡议的背景下,排除可能的其他政策干扰。(注:另一种排除同时期其他政策的影响的影响是通过控制同时期政策带来的影响,比如齐绍洲(2018) 在研究排污权交易试点政策是否诱发了企业绿色创新文章时提到,排污费征收政策与排污权交易试点政策并行,我们可以通过需要控制排污费征收政策对企业绿色创新的影响,进一步提炼排污权交易试点政策对企业绿色创新的因果关系。)

类似的缩短时间窗口的文章包括何欣 (2016) ;孙传旺 (2019)

9.滚动窗口法

陈冬华 (2018) 在研究产业政策对股价同步性影响文章中提出,产业政策的影响是一个循序渐进的过程,因此在稳健性检验部分基于滚动窗口的实证研究方法对产业政策进行了动态研究。

当我们选择好了时间之后,同时也要确定我们的样本是否最能体现我们所研究的问题,同时样本中有没有极端值会影响我们的结果。因此,在稳健性检验中,我们需要将个别离群值剔除,或者在样本中选择最适合我们研究目的样本来检验我们的结论是否依然稳健。

10.选择子样本

鞠雪楠 (2020) 在研究跨境电商平台克服了哪些贸易成本时提出在跨境电商出口贸易中,中国向各个国家(地区)出口的分布并不均衡。其中,美国是中国最大的出口目的地;中国香港和新加坡是全世界重要的转口贸易地区,中国向这个两个地区的出口可能也有转而向其他国家出口。为了确保实证分析的结论不受特定国家(地区) 和转口贸易的影响,本文给出了剔除这三个国家以及地区的样本之后的实证分析结果。

同样的文章可以参考刘怡 (2017) ;李卫兵 (2019) ;蔡栋梁 (2018) ;何晓斌 (2013) ;叶迪 (2017) ;申广军 (2017) ;铁瑛 (2019) ;李春涛 (2020) ;罗勇根 (2019) ;陈强远 (2019)。

11.缩尾处理

在处理离群值时,我们要进行缩尾处理,陈强远 (2019) 在研究中国技术创新主要激励政策对企业技术创新质量和数量的影响时提到,由于控制变量如资产收益率与负债比率的测算存在极端值,尽管上文已对资产收益率与负债比率进行了 5%分位上双边缩尾。但为了进一步验证前文结论的稳健性,接下来本文对企业的资产收益率与负债比率进行了 1%分位上双边缩尾处理。

12.扩充样本容量

除了剔除部分样本进行回归之外,我们依然可以通过增加样本来进行稳健性检验。比如原文中只采用了省会城市进行分析,在稳健性检验部分则可以将样本扩大到所有地级市城市,这一方法有时也被称为降低数据维度。

比如李卫兵 (2019) 在研究空气污染对企业生产率的影响时提到,本文提取的 PM2.5 排放浓度来源于城市层面,同时由于大样本选择下更易带来显著的回归结果,为了证明回归结果的准确性,我们参考江艇等 (2018) 的处理方法计算出城市层面的 TFP,将区域层面的数据降低至城市层面。(注:除了降低数据维度,我们同样可以提高数据维度,比如铁瑛 (2019) 在人口结构变动的影响时多个个体维度进行调整,分别加总至企业维度和城市维度进行稳健性分析)。

内生性问题是我们每个文章都要考虑到的问题,施炳展 (2020) 在分析互联网对中国制造业企业分工水平的影响时将大部分稳健性检验的篇幅都留给了内生性问题,可见内生性问题对我们研究的重要性。在处理内生性问题时,我们通常采用以下几种方法进行稳健性检验:

13.工具变量法

工具变量是解决内生性问题的一个重要方法,比如施炳展 (2020) 选择了中国建国初期各省份人均函件数量作为省份层面企业互联网普及率的工具变量,选择一个合适的工具变量可以对整个研究都有重要的影响,但同时也是十分困难的,我们可以通过大量的文献阅读积累来选择最合适本文研究的工具变量。

类似的利用工具变量克服反向因果关系的文献可以参考蔡栋梁 (2018) ;周京奎 (2019) ;梁斌 (2020) ;刘啟仁 (2020) ;张龙鹏 (2016) ;罗勇根 (2019)

14.加入滞后变量

部分研究也会将自变量的滞后一期或者两期变量纳入模型中来解决内生性问题,比如孙传旺(2019) 在研究交通基础设施与城市空气污染的关系时除了控制核心解释变量的内生性偏误,我们还担心其他控制变量也可能存在潜在的内生性问题。为了检验结果稳健并排除这一种担忧,将其他所有控制变量滞后一期;黄健柏 (2015) 到工业用地价格扭曲对企业过度投资的影响可能存在更长的时滞效应,把回归模型中的工业用地价格扭曲程度变量替换为滞后两期项,重新进行回归分析;李春涛 (2020) 考虑到创新投入也是影响专利产出的重要因素,本文在控制变量中加入企业创新投入的指标,并采用研发支出总额占销售收入之比来度量。由于创新投入对创新产出的影响具有时滞性,本文使用滞后一期的创新投入指标。

类似的文章可以参考顾夏铭 (2018) ;刘啟仁 (2020) 。

15.样本自选择问题

陈强远 (2019) 在研究中国技术创新主要激励政策对企业技术创新质量和数量的影响中提到,高新技术企业认定等技术创新激励政策可能存在自选择问题,即企业整体绩效较好的企业更容易享受优惠政策,这可能导致估计结果存在偏误。为了解决这一问题,文章采用 Heckman 两步法进行了稳健性检验。类似的文章包括蔡晓慧 (2016) ;周颖刚 (2019) 等。

注:因为内生性问题十分重要,也有一些文章不将其作为稳健性检验的一部分,而是作为正文当中的一部分,比如高晶晶 (2019) ;韩永辉 (2017) ;余吉祥 (2019)。

16. 验证前提条件

正如前文提到,稳健性检验就是为了检验回归方法中的前提条件是否满足,比如吕越(2019) 在采用双重差分法研究“一带一路”倡议的投资对对外投资的影响时检验了 DID 的方法成立的条件,包括安慰剂检验,平行趋势检验等等,类似的文章周茂(2019) ;朱晓文 (2019) ;梁斌 (2020) ;陈冬华 (2018)

同样李卫兵 (2019) 也在使用RD 估计时,辅助进行了 RD 检验的有效性检验。;类似文章还有梁若冰 (2016)。

17.模型替换法

在上文中提到的蔡晓慧 (2016) 这篇文章中,作者依次在正文中采用线性概率模型进行研究后,在稳健性检验部分又依次采用 Logit 模型、Probit 模型进行估计基础设施对企业是否投入研发的影响;同样施炳展 (2020) 考虑到线性回归模型潜在的模型设定偏误,以面板 Tobit 模型替换线性回归模型后重新进行了回归;李春涛 (2020) 认为本文使用的专利数量有大量的零值,存在截尾数据的特征,因此使用Tobit 模型进一步检验金融科技发展对企业创新的影响;祝树金 (2020) 用断点回归能较好的识别因果关系,这里使用这种方法对前文的 DID 回归进行稳健性检验。

18.更换新的数据源

何兴强 (2019) 在探讨房价收入比对家庭消费房产财富效应的影响时,为了增强研究结论的稳健性,分别使用了调查数据、宏观数据、和不同的家庭调查数据重新估计本文的主要回归。这种方法对于数据的要求较高,因此使用频率较低。

在我们进行完稳健性检验后,我想大家可能跟笔者一样也经常遇到不稳健的结果,因此,这里想跟大家分享一下 Cristobal Young (2015) 在针对稳健性检验时提出的一段话:

学者总是在努力能够通过他的文章采用无懈可击的证据来讲述一个“完美”的故事,但实际上我们必须承认,不稳健的结论有时可以引发我们更多深入的思考,也许一个重大的发现就隐藏在我们不稳健的结果背后。在稳健性检验时,我们需要更多的耐心来面对我们不稳健的结果,同时我们也需要更多的动力来揭秘不稳健结果背后隐藏的秘密。

因此,最后希望大家在面对不稳健的结果时,不要感到无措或者恐慌,静下心来思考一下背后的原因,这才是研究的意义所在。

如果坛友们有其他的见解,也欢迎在评论区讨论


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:稳健性检验 稳健性 中国工业企业数据库 aversion heckman

已有 1 人评分学术水平 热心指数 信用等级 收起 理由
2022geralt + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-9 15:05