来源:吴小康.关于统计显著与经济显著的若干讨论[J].经济学动态,2019(01):145-158.
转载:经济学动态
摘要:统计显著通常由p值或t值衡量,反映估计结果在统计意义上是否由抽样误差引起;经济显著通常由估计系数的大小衡量,反映估计结果对科学研究、个人决策或政策制定的重要性。二者共同决定一项研究的价值。理论上,统计显著不一定经济显著,统计不显著也可能经济显著;但实际研究中,经济学家往往重统计显著而轻经济显著。Deirdre McCloskey和Steve Ziliak两位学者自20世纪80年代至今不断发表相关文章,试图揭示和纠正经济学家在这一方法论上的重大错误。本文以此两位学者的研究为基础,系统讨论了三个问题:(1)统计显著和经济显著的定义以及二者的区别和联系。(2)经济学家误用统计显著和经济显著的情况有多严重。(3)是否存在一些方法可以让经济学家更关注经济显著。
关键词:统计显著 经济显著 假设检验 计量方法论
一、引言
假如你身患癌症,医生告诉你有一种新药能治你的病,药效在99%置信区间上统计显著,你会用这种药吗?想必你不会轻易做出决定,你可能要追问医生,这种药究竟能多大程度治疗你的癌症,只能短暂延续生命还是根治?这种药有什么副作用?药价多少?只有综合考虑这些问题之后,你才会选择是否用药以及用多少药。
病人不仅关心药是否有用,更重视有多大作用。经济政策制定者同样如此,例如他们不仅想知道提高最低工资是否导致失业,更想弄清楚有多少人、哪些人会失业。再如,他们还想知道最低工资带来的福利增加是否超过失业者的福利损失。对于这些问题,经济学家很少能给出准确答案,因为他们大多数时候止步于检验最低工资对失业的影响是否在统计上显著。与病人和政策制定者不一样,部分学术工作者们似乎只在意统计上是否显著,而不管实际效果有多大。不仅仅经济学如此,凡使用统计学工具的领域,包括医药学、物理学、农学、地质学等自然学科,管理学、社会学、政治学、历史学、心理学、教育学等社会学科,或多或少都存在这一问题。
仅重视统计显著而忽视经济显著的代价是巨大的。在循证医学(evidence-based medicine)领域,研究人员寻找统计显著结果的激励可能导致很多人的生命健康受到威胁。在日常生活中,我们经常听到一些健康贴士,比如某种食物能减少某种疾病发生的风险,某种行为能控制体重,等等。这些贴士的相当一部分来自学术研究,而相当一部分研究的立论基础是实验组和控制组在统计上存在显著差别。很多人将这些贴士奉若良方,但并不知道统计上显著的差别只表明,而在临床上可能非常小。经济学中类似的贴士不会比医学中少,宏观经济学中已经出现过数以百计的影响经济增长的变量,包括资本、劳动、制度、文化、宗教等,劳动经济学中也已出现过很多影响收入的变量,包括性别、教育、家庭、年龄等。同样,相当一部分研究也只根据统计上是否显著来判断一个变量是否影响经济增长或收入。经济学研究结果可能不会像医学一样给社会带来直接损失,但其间接影响不容忽视。如果经济学家能搞清楚哪一个变量的实际重要程度更大,就可以提供更有针对性的政策建议。如果更重视实际重要性,经济学家就能更早地在经济增长这一问题上达成共识,转向另一个研究问题,而不是没完没了地进行回归。
混淆统计显著与经济显著并非新现象,White(1967)、Mayer(1980)很早就对此有过讨论,但让这个问题引起广泛注意的是经济史学家Deirdre McCloskey (原名Donald McCloskey)。McCloskey在其所发表的《经济学的修辞学》 (McCloskey, 1983)名篇中,批评“显著”一词的误用在经济学研究中非常普遍。此后,McCloskey与其合作者Steve Ziliak (以下简称M-Z)陆续发表了一系列相关文章(McCloskey, 1985等),包括对发表在《美国经济评论》(American Economic Review)中文章的实证调查。2008年,M-Z出版了专著《统计显著性崇拜》(Ziliak & McCloskey, 2008a),继续批评经济学家对经济显著的忽视。《科学》(Science)、《自然》(Nature)、《美国数学协会通告》 (Notices of the American Mathematical Society)等知名期刊先后对这本书发表相关书评。M-Z的研究得到了一些学者的认同,但也受到争议。2004年,《社会经济学》 (Journal of Socio-Economics) 。第33卷第5期为统计显著和经济显著问题开辟了专题讨论,M-Z和E.Leamer、J.Wooldridge等著名学者都参与了讨论。2008年前后,M-Z与T.Mayer、A.Spanos、K.Hoover、M.Siegler等学者展开了一系列针锋相对的辩论 (Hoover & Siegler, 2008等)。
本文的主要目的是回顾M-Z及其支持者和批评者关于统计显著和经济显著的主要观点,并在此基础上提出一些具备可操作性的建议,以提高研究人员对经济显著的重视程度。要强调的是,由于统计显著和经济显著与许多其他争议性问题联系紧密,稍有不慎我们就可能偏离主题。例如,对统计显著的讨论可能很容易转向对整套假设检验方法或计量经济学方法论的质疑,对经济显著的讨论则很容易转向对“黑板经济学”的批判。鉴于此,我们将力求始终紧扣统计显著和经济显著两个关键词。
二、统计显著和经济显著的区别
在如今的经济学经验研究论文中,“显著”(significant)一词极其常见。常见的表述包括:“两个变量的均值差异是显著的”“……变量的估计系数是显著的”“……变量的估计系数在1%水平上显著区别于0”。这些“显著”大多仅表示统计意义上的显著,而非经济显著。本部分首先说明统计显著和经济显著的含义,然后分析二者的区别。
(一)统计显著的含义
要搞清楚统计显著的含义,先要了解假设检验。假设检验和参数估计是统计分析的两个主要步骤,后者是利用样本信息估计总体特征,前者是检验估计结果能否真实反映总体情况,或者估计结果在多大的概率上不由抽样误差造成。一般认为,现代意义上的假设检验的雏形最早由Ronald Fisher在其《研究工作者的统计方法》(1925)一文中提出。Fisher为了搞清楚庄稼产量的差异是由人为因素(例如施肥)还是随机差异造成的,先假设施肥不会影响庄稼产量,也就是所谓的“原假设”或“零假设”,然后计算施肥没有效果的条件下被施肥庄稼的产量等于观测产量的概率。他进一步提出,只要这一概率小于0.05,就可以拒绝原假设,认为施肥对庄稼产量有影响。Fisher的方法遭到Neyman & Pearson (1928)的猛烈批评,后者提出Neyman-Pearson假设检验。后来的学者为了调和二者矛盾,将两种方法整合为原假设显著性检验(NHST),NHST成为学术界的主流检验方法(参见Christensen, 2005)。
在NHST框架下,如果某个研究结果(例如根据样本计算的均值或回归方程中某个自变量的估计系数)在原假设成立的情况下发生概率极低,就认为该结果异于原假设是统计显著的。用统计学术语来说,定义显著性水平α为:原假设为真而拒绝原假设的概率,通常事先设定为10%、5%或1%;定义p值为:原假设为真时能得到样本观察(估计)结果或更极端结果的概率。如果p<α,就认为研究结果是统计显著的(Gujarati, 2009)。
(二)被忽略的经济显著
一项研究结果在统计上显著只能说明该结果不太可能因为统计误差因素偶然得到,但统计显著的研究并不一定具有实际价值,实际价值也就是经济学家所说的经济显著。不同学科对经济显著有不同的称呼,除了经济显著,常见的其他说法包括临床显著、科学显著、实际显著、政策显著等。
经济显著并没有明确的定义。从字面意思来说,经济显著程度就是回归分析中估计系数的大小。例如,教育经历每增加1年导致收入增加多少,男性相对女性平均收入高多少,外商直接投资比例每增加1%企业生产率提高多少。统计上是否显著有固定的临界值作为判断依据,但经济上是否显著则无标准可依,要具体研究问题具体分析。一些研究结果的经济显著程度非常直观,例如 “男女年平均工资差额为1元人民币”这一结果说明男女之间并不存在明显的收入差异;一些研究结果的经济显著程度则不容易直接判断,例如对于“市场竞争指数提高1%导致生产率提高1%”这一发现,就很难说市场竞争究竟是否对生产率的提高有明显的作用。
经济学家对经济显著的忽视表现在以下几个方面:(1)统计显著而经济不显著往往比统计不显著而经济显著的研究结果更容易发表(Sterling, 1959等)。(2)一篇论文往往用大量的篇幅来说明统计显著,但对经济重要程度一笔带过。(3)在建立实证模型时,统计显著的变量通常比经济显著的变量更容易被选择,例如逐步回归方法仍然在很多领域被应用 (Ziliak & McCloskey, 2008a)。(4)一个统计不显著的变量,即便出现在模型或论文中,也很少被进一步讨论。
之所以经济显著被忽视,有两个可能原因:(1)统计显著可以通过NHST这一标准的流程来判断,而经济显著往往要依具体研究问题具体讨论。(2)论文发表和职业晋升逐渐成为学术研究的主要动力,解决实际经济问题退居其次,以至于经济学家热衷于寻找变量之间的统计显著关系,漠视解决现实问题(Gill, 1999)。
(三)统计显著不一定经济显著
统计显著不是经济显著的充分条件。首先,统计显著可能只反映相关关系,而非因果关系。就经济意义而言,因果比相关更重要。例如,一项公开发表的研究发现人均巧克力消费越多的国家获得诺贝尔奖的概率越大(Messerli et al, 2012)。暂且不说吃巧克力能在多大程度上提高获诺贝尔奖的概率,仅从因果关系来看,这项研究在经济上就是不显著的。经济学家非常清楚相关与因果的区别,并且在因果关系识别上投入了巨大精力,这无须本文赘述。本文要重点讨论的是,即便是稳健地反映因果关系的统计显著,在经济上也不一定显著。原因如下:
1.统计显著的系数实际上可能很小。例如,如果一项研究发现,受教育年数每增加1年全年总收入增加10元人民币,在经济上这一研究结果显然是不重要的,因为理性人不会为了增加10元人民币选择再接受1年教育。问题是估计系数10元人民币离0如此近,这项研究还能通过统计显著检验吗?答案是能。理论上,在NHST框架下几乎任何原假设都可能被拒绝(Cohen, 1990; Goldberger, 1991)。以最常用的t检验为例,根据,由于随着样本规模的增大而减小,当样本规模足够大时,se(β)足够小,此时β与之间的细微差异都可能导致|t|非常大,从而原假设被拒绝。也就是说,在原假设下,只要估计得到的不绝对等于0,“认为x对y没有影响”的假设都会被拒绝。随着数据规模逐渐变大,t值给出的信息正在逐渐微弱。
2.即便变量的估计系数统计显著且很大,在实际应用中也可能没有意义。Goldberger (1991)给出了这样一个例子:假设因变量是体重,自变量是身高和锻炼,假设身高的估计系数更大,并且两个变量的标准误相同,对于一个想减肥的人来说,医生显然不能依此建议他“你不是太重,只是不够高”。虽然身高和锻炼的估计系数一样大,但后者的可控制性更强。经济学中有很多类似的例子。假设因变量是经济增长,自变量是各国的制度、地理位置及其他控制变量,如果控制其他变量后,地理位置比制度的估计系数更大且标准误相同。我们显然不能根据这一研究结果建议地理位置不好的国家搬到更好的地方。
3.从全局均衡的角度来看,经济显著性还取决于成本和收益。在经济增长的例子中,仍然假设因变量是经济增长,但关键自变量换成教育、制度及其他控制变量,如果控制其他变量后,教育和制度的估计系数相同,且标准误相同,那是否可以认为教育和制度的经济显著程度相同呢?在政策建议层面是不一定的,如果政府面临预算约束,那么在选择将有限资金投入到教育还是制度建设中时,政府还要考虑哪一种投入的成本更低。在这个例子中,改善教育和制度可能不会有其他负面影响。但在另一些情境下,还要同时考虑变量的负面影响。例如,反倾销一方面可以保护本国企业,另一方面会使消费者受损。要搞清楚反倾销的作用是否在经济上显著,必须从全局均衡角度进行成本—收益分析。