楼主: 李壮壮儿
3741 0

[学科前沿] 当计量经济学遭遇机器学习(三):高维回归之岭回归 [推广有奖]

  • 0关注
  • 3粉丝

版务助理

博士生

84%

还不是VIP/贵宾

-

威望
0
论坛币
-11279 个
通用积分
139.6632
学术水平
7 点
热心指数
6 点
信用等级
6 点
经验
1473 点
帖子
51
精华
0
在线时间
646 小时
注册时间
2019-10-25
最后登录
2024-9-2

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

高维回归的源起

除了因果推断与处理效应,机器学习中将对计量经济学产生重大影响的另一方法为 “高维回归”(high dimension regression),比如 LASSO 系列的惩罚回归方法。这类方法有望在不久的将来渗透到计量经济学的众多领域。


大数据的一种表现形式为 “高维数据”(high dimensional data),即变量个数(p)大于样本容量(n)。这种情形有时也称为 “data-rich environment”。高维数据大约最早出现于 “生物统计”(biostatistics)领域。


比如,某项研究收集了 100 位病人的信息,其中每位病人均有 5 万条基因的数据。受成本限制,样本容量 n=100 很难再扩大,而变量个数 p 则远远大于样本容量。如此之多的变量自然提供了更多的信息,但同时也为回归估计带来了新的挑战。


经济学有高维数据吗?

在介绍高维回归之前,首先要回答的问题是,经济学有高维数据吗?如果没有或很少见,或许就没必要太关心。事实上,经济学不仅有高维数据,而且越来越多。大致来说,经济学中出现高维数据主要有以下两种情形。


情形一、数据本身可能就是高维的。比如,人口普查、工业调查或家庭调查数据,通常包括每位个体的数百个变量。而交易层面的数据(包括网购与零售扫描数据)、社交媒体的数据、以及文本挖掘的数据,其变量则一般成千上万,甚至更多。


情形二,尽管原始变量(raw variables)不多,但我们通常不知道这些变量应以怎样的函数形式(functional form)进入回归方程。为了解决潜在非线性,研究者可能加入原始变量的平方项、交互项(interaction terms)、甚至更高次项,以及其他变换(比如取对数),使得最终变量的个数大大增加。


其实,情形二在计量经济学中一直存在,但在高维回归发明之前,并没有很好的解决方法,故一般限制回归方程为线性模型,仅偶尔从经济理论或 “直觉” 出发,加入个别变量的平方项或交互项。使用高维回归的工具,则不仅可以加入足够多的高次项,还可以系统地甄别哪些高次项真正起作用,而不仅仅依赖于研究者的 “直觉”。


高维回归的挑战

高维回归的最大挑战是很容易出现“过拟合”(overfit)。这是因为,对于p>n的高维数据,可以用来解释 yx 很多,如使用传统的 OLS 回归,虽可得到完美的样本内拟合(in-sample fit),但外推预测的效果可能很差。


作为一个启发性例子,不妨假设 n=p=100。此时,即使这100个解释变量 x 与被解释变量 y 毫无关系(比如,相互独立),但将 yx作 OLS 回归,也能得到拟合优度  的完美拟合。这是因为,根据线性代数的知识,一个100维的向量组,其最大可能的秩为100。换言之,如果所有100个 x 向量均线性无关,则第101个向量(即 y)一定可以由这100个 x向量所线性表出。


另一方面,如果这些 x均与 y 相互独立,则由此样本估计的回归函数,将毫无外推预测的价值,尽管其样本内的拟合达到了完美的程度。这种拟合显然过度了(故名 “过拟合”),因为它不仅拟合了数据中的信号(signal),而且拟合了数据中的噪音(noise)。在此极端例子中,由于数据全是噪音并无信号,故 OLS 完美地拟合了数据中的噪音,自然毫无意义。


严格多重共线性是家常便饭

p<n 的传统计量经济学中,严格多重共线性(strict multicollinearity)较为少见;而即使出现,也不是大问题,只要将多余的变量去掉就行(具体去掉哪个变量并不重要)。


然而,在 p>n 的高维数据中,严格多重共线性却成为家常便饭。比如,任意 n+1个变量之间,一般就存在严格多重共线性,以此类推。此时,简单地去掉导致严格多重共线性的变量将无济于事,因为可能需要扔掉很多变量(想想100个病人,5万个基因变量的例子),难免将婴儿与洗澡水一起倒掉。


事实上,对于 p>n 的高维数据,OLS 一般没有唯一解,因为任意线性无关的 n 个变量 x,均可完美地解释 y。此时,可将 OLS 估计量的方差视为无穷大,因为 OLS 估计量的方差表达式为 11.webp.jpg

(其中, 22.webp.jpg nxp 的数据矩阵,其每列均为解释变量),而在严格多重共线性的情况下, 33.webp.jpg 并不存在。


岭回归

作为高维回归的方法之一,岭回归(ridge regression)最早由 Hoerl and Kennard (1970) 提出,其主要出发点正是为了解决多重共线性。


在传统的低维回归(low dimension regression),虽然严格多重共线性很少见,但不完全的多重共线性却不时出现,即解释变量 x 之间虽然不完全相关,但相关性却很高。此时,矩阵 1.webp.jpg

变得几乎不可逆,导致 OLS 估计量的方差 2.webp.jpg 变得很大。


岭回归的解决方法为,在矩阵的主对角线上都加上常数 ,使所得矩阵 3.webp.jpg

变得 “正常”(其中, 640.webp (5).jpg 为单位矩阵)。

具体来说,相对于 OLS 估计量 111.webp.jpg

,岭回归估计量为


222.webp.jpg

由此可知,岭回归只是在 OLS 表达式中加入了 “山岭” 333.webp.jpg

,故名 “岭回归”。


由于 OLS 估计量是无偏(unbiased),故凭空加上此 “山岭” 之后,所得的岭回归估计量其实是有偏的(biased)。但在多重共线性的情况下,OLS 估计量的方差太大,而岭回归则可减小方差,使得岭回归估计量的均方误差(MSE)可能更小(因为均方误差等于方差加上偏差平方)。


岭回归究竟有什么理论依据呢?其实,可将岭回归估计量看成以下最小化问题的最优解,其目标函数为残差平方和(SSR),再加上一个惩罚项(惩罚太大的参数向量):


11.webp.jpg


其中, 22.webp.jpg

为 “微调参数”(tuning parameter),控制惩罚(penalty)的力度,通常使用 “交叉验证”(cross validation)来确定(即选择 使得模型的预测误差最小)。 1.webp.jpg 为参数向量 2.webp.jpg 的2-范数(L2 norm),即该向量的长度 3.webp.jpg 。求解此最小化问题,从其一阶条件,不难得到上述岭回归估计量的表达式。


岭回归的几何解释


一般来说,与OLS估计量相比,岭回归估计量更为向原点收缩,是一种 “收缩估计量”(shrinkage estimator)。这可以从几何上得到解释。首先,岭回归的目标函数可以等价地写为一个有约束的极值问题:

1.webp.jpg

其中, 2.webp.jpg

为某常数。对于此约束极值问题,可引入拉格朗日乘子函数,并以 作为其乘子,即可得到前述的岭回归目标函数。由于约束集 4.webp.jpg p 维参数空间中的圆球,故可将此约束极值问题图示如下(假设 p=2)。

5.webp.jpg

在上图中, 111.webp.jpg

为 OLS 估计量,围绕 的椭圆为残差平方和(SSR)的 “等高线”,而灰色的圆球则为约束集(可行的参数取值范围)。岭回归估计量即为椭圆等高线与圆球约束集相切的位置。


从上图可直观地看出,岭回归为收缩估计量,一般比 OLS 估计量更向原点收缩,故是有偏估计(因为 OLS 是无偏估计)。正因为如此,虽然岭回归早在1970年就出现,但在低维回归的时代一直未引起重视,其原因或许在于多数人还是更喜欢无偏的 OLS 估计量(Who wants to be biased?)。


然而,在高维回归的情况下,严格多重共线性成为常态,OLS 不再有唯一解,而岭回归不仅总能得到唯一解,还可降低方差、缓解过拟合,其重要性才日益凸显。


岭回归的局限性

然而,岭回归也有局限性。从上图还可看出,由于约束集为圆球,故等高线与约束集相切的位置一般不会碰巧在坐标轴上,故通常只是将所有的回归系数都按某种比例收缩,而不会让某些回归系数严格等于 0。


在这种情况下,由于高维回归的变量很多,如果所有变量的系数都非零,将使得模型的解释变得很困难(如何同时考察 5 万个回归系数?)。我们通常期望从 5 万个基因中,能够找到真正影响疾病为数不多的基因。换言之,我们一般期待真实模型是稀疏的(sparse model)。因此,希望找到一个估计量,能挑选出那些真正有影响的基因,而让其他无影响或影响微弱基因的回归系数严格为 0。


为此,套索估计量(LASSO)应运而生,自 Tibshirani (1996) 提出 Lasso之后,很快成为大数据时代炙手可热的新宠,将在下期推文中继续介绍。


高级计量经济学与Stata现场班(含机器学习与高维回归,北京,十一)

本文为山东大学陈强教授原创,摘自陈强老师微信公众号“econometrics-stata”,转载请注明作者与出处。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:计量经济学 机器学习 计量经济 经济学 岭回归

111.jpg (261 Bytes)

111.jpg

64011.jpg.jpg (1.26 KB)

64011.jpg.jpg

64011.jpg.jpg (1.26 KB)

64011.jpg.jpg

64011.webp.jpg (1.26 KB)

64011.webp.jpg

64011.webp.jpg (1.26 KB)

64011.webp.jpg

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-6 03:39