高维回归的源起
除了因果推断与处理效应,机器学习中将对计量经济学产生重大影响的另一方法为 “高维回归”(high dimension regression),比如 LASSO 系列的惩罚回归方法。这类方法有望在不久的将来渗透到计量经济学的众多领域。
大数据的一种表现形式为 “高维数据”(high dimensional data),即变量个数(p)大于样本容量(n)。这种情形有时也称为 “data-rich environment”。高维数据大约最早出现于 “生物统计”(biostatistics)领域。
比如,某项研究收集了 100 位病人的信息,其中每位病人均有 5 万条基因的数据。受成本限制,样本容量 n=100 很难再扩大,而变量个数 p 则远远大于样本容量。如此之多的变量自然提供了更多的信息,但同时也为回归估计带来了新的挑战。
经济学有高维数据吗?
在介绍高维回归之前,首先要回答的问题是,经济学有高维数据吗?如果没有或很少见,或许就没必要太关心。事实上,经济学不仅有高维数据,而且越来越多。大致来说,经济学中出现高维数据主要有以下两种情形。
情形一、数据本身可能就是高维的。比如,人口普查、工业调查或家庭调查数据,通常包括每位个体的数百个变量。而交易层面的数据(包括网购与零售扫描数据)、社交媒体的数据、以及文本挖掘的数据,其变量则一般成千上万,甚至更多。
情形二,尽管原始变量(raw variables)不多,但我们通常不知道这些变量应以怎样的函数形式(functional form)进入回归方程。为了解决潜在非线性,研究者可能加入原始变量的平方项、交互项(interaction terms)、甚至更高次项,以及其他变换(比如取对数),使得最终变量的个数大大增加。
其实,情形二在计量经济学中一直存在,但在高维回归发明之前,并没有很好的解决方法,故一般限制回归方程为线性模型,仅偶尔从经济理论或 “直觉” 出发,加入个别变量的平方项或交互项。使用高维回归的工具,则不仅可以加入足够多的高次项,还可以系统地甄别哪些高次项真正起作用,而不仅仅依赖于研究者的 “直觉”。
高维回归的挑战
高维回归的最大挑战是很容易出现“过拟合”(overfit)。这是因为,对于p>n的高维数据,可以用来解释 y 的 x 很多,如使用传统的 OLS 回归,虽可得到完美的样本内拟合(in-sample fit),但外推预测的效果可能很差。
作为一个启发性例子,不妨假设 n=p=100。此时,即使这100个解释变量 x 与被解释变量 y 毫无关系(比如,相互独立),但将 y 对 x作 OLS 回归,也能得到拟合优度 的完美拟合。这是因为,根据线性代数的知识,一个100维的向量组,其最大可能的秩为100。换言之,如果所有100个 x 向量均线性无关,则第101个向量(即 y)一定可以由这100个 x向量所线性表出。
另一方面,如果这些 x均与 y 相互独立,则由此样本估计的回归函数,将毫无外推预测的价值,尽管其样本内的拟合达到了完美的程度。这种拟合显然过度了(故名 “过拟合”),因为它不仅拟合了数据中的信号(signal),而且拟合了数据中的噪音(noise)。在此极端例子中,由于数据全是噪音并无信号,故 OLS 完美地拟合了数据中的噪音,自然毫无意义。
严格多重共线性是家常便饭
在 p<n 的传统计量经济学中,严格多重共线性(strict multicollinearity)较为少见;而即使出现,也不是大问题,只要将多余的变量去掉就行(具体去掉哪个变量并不重要)。
然而,在 p>n 的高维数据中,严格多重共线性却成为家常便饭。比如,任意 n+1个变量之间,一般就存在严格多重共线性,以此类推。此时,简单地去掉导致严格多重共线性的变量将无济于事,因为可能需要扔掉很多变量(想想100个病人,5万个基因变量的例子),难免将婴儿与洗澡水一起倒掉。
事实上,对于 p>n 的高维数据,OLS 一般没有唯一解,因为任意线性无关的 n 个变量 x,均可完美地解释 y。此时,可将 OLS 估计量的方差视为无穷大,因为 OLS 估计量的方差表达式为
岭回归
作为高维回归的方法之一,岭回归(ridge regression)最早由 Hoerl and Kennard (1970) 提出,其主要出发点正是为了解决多重共线性。
在传统的低维回归(low dimension regression),虽然严格多重共线性很少见,但不完全的多重共线性却不时出现,即解释变量 x 之间虽然不完全相关,但相关性却很高。此时,矩阵
岭回归的解决方法为,在矩阵的主对角线上都加上常数 ,使所得矩阵
具体来说,相对于 OLS 估计量
由此可知,岭回归只是在 OLS 表达式中加入了 “山岭”
由于 OLS 估计量是无偏(unbiased),故凭空加上此 “山岭” 之后,所得的岭回归估计量其实是有偏的(biased)。但在多重共线性的情况下,OLS 估计量的方差太大,而岭回归则可减小方差,使得岭回归估计量的均方误差(MSE)可能更小(因为均方误差等于方差加上偏差平方)。
岭回归究竟有什么理论依据呢?其实,可将岭回归估计量看成以下最小化问题的最优解,其目标函数为残差平方和(SSR),再加上一个惩罚项(惩罚太大的参数向量):
其中,
岭回归的几何解释
一般来说,与OLS估计量相比,岭回归估计量更为向原点收缩,是一种 “收缩估计量”(shrinkage estimator)。这可以从几何上得到解释。首先,岭回归的目标函数可以等价地写为一个有约束的极值问题:
其中,
在上图中,
从上图可直观地看出,岭回归为收缩估计量,一般比 OLS 估计量更向原点收缩,故是有偏估计(因为 OLS 是无偏估计)。正因为如此,虽然岭回归早在1970年就出现,但在低维回归的时代一直未引起重视,其原因或许在于多数人还是更喜欢无偏的 OLS 估计量(Who wants to be biased?)。
然而,在高维回归的情况下,严格多重共线性成为常态,OLS 不再有唯一解,而岭回归不仅总能得到唯一解,还可降低方差、缓解过拟合,其重要性才日益凸显。
岭回归的局限性
然而,岭回归也有局限性。从上图还可看出,由于约束集为圆球,故等高线与约束集相切的位置一般不会碰巧在坐标轴上,故通常只是将所有的回归系数都按某种比例收缩,而不会让某些回归系数严格等于 0。
在这种情况下,由于高维回归的变量很多,如果所有变量的系数都非零,将使得模型的解释变得很困难(如何同时考察 5 万个回归系数?)。我们通常期望从 5 万个基因中,能够找到真正影响疾病为数不多的基因。换言之,我们一般期待真实模型是稀疏的(sparse model)。因此,希望找到一个估计量,能挑选出那些真正有影响的基因,而让其他无影响或影响微弱基因的回归系数严格为 0。
为此,套索估计量(LASSO)应运而生,自 Tibshirani (1996) 提出 Lasso之后,很快成为大数据时代炙手可热的新宠,将在下期推文中继续介绍。
高级计量经济学与Stata现场班(含机器学习与高维回归,北京,十一)
本文为山东大学陈强教授原创,摘自陈强老师微信公众号“econometrics-stata”,转载请注明作者与出处。