请选择 进入手机版 | 继续访问电脑版
楼主: 李壮壮儿
6035 1

[数据管理求助] 高维回归Lasso之Stata操作案例 [推广有奖]

  • 0关注
  • 3粉丝

版务助理

博士生

80%

还不是VIP/贵宾

-

威望
0
论坛币
7486 个
通用积分
139.6632
学术水平
7 点
热心指数
6 点
信用等级
6 点
经验
1473 点
帖子
51
精华
0
在线时间
627 小时
注册时间
2019-10-25
最后登录
2024-4-14

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

套索估计量(Lasso)之简要回顾


所谓 “高维回归”,指的是回归的样本容量 n 小于变量个数 p 的情形;比如,样本为 100 个病人,而每个病人有 2 万个基因。此时由于存在严格多重共线性,无法使用 OLS,而套索估计量(Least Absolute Shrinkage and Selection Operator,简记 LASSO)则是非常流行的高维回归方法。


事实上,经济学家经常将 Lasso 应用于传统的低维数据,因为 Lasso 具有 “变量选择”(variable selection)的功能。


考虑以下线性回归模型:


1.webp.jpg


Lasso 估计量(Tibshirani,1996)求解以下最小化问题:


2.png

其中, 1.png

为微调参数(tuning parameter),控制惩罚的力度(惩罚过大的参数);而 2.png
为参数向量 3.png
的 1-范数(L1 norm),即

4.png


为各回归系数的绝对值之和。不难看出,由于惩罚项的存在,故 Lasso 为收缩估计量,即相较 OLS 估计量更为向原点收缩(如果没有此惩罚项,则就是 OLS)。


上述 Lasso 最小化问题可等价地写为如下约束极值问题:


11.png


其中, 1.png

为某常数(可视为微调参数)。不难看出,此约束极值问题的约束集 2.png
为菱形或高维的菱状体。以 p=2 为例,可将 Lasso 的约束极值问题图示如下。


3.png




Lasso 的 Stata 操作案例


在 Stata 中进行 Lasso 估计,可使用非官方命令 lassopack,其安装方法为


ssc install lassopack


Lassopack 包含三个与 Lasso 相关的子命令。其中,lasso2 可进行 Lasso 估计,以及 Lasso 的多个变种,包括 square-root lasso, elastic net, ridge regression, adaptive lasso 等。另一子命令 cvlasso 可进行 k 折交叉验证(k-fold cross validation)。


下面以 Tibshirani (1996) 所用的前列腺癌数据集作为案例。此数据集其实为低维数据(n = 97, p = 8),但它是创始人 Tibshirani 所用的案例,故常作为 Lasso 的演示数据。


该数据集包含了 97 位男病人的数据,被解释变量为“前列腺特异性抗原的对数”(log of prostate specific antigen,简记 lpsa),而解释变量则包括年龄(age),癌体积对数(log of cancer volume,简记 lcavol)等,参见 Tibshirani (1996) 的论文截图。


展望


无论在统计学、计量经济学,还是经济学领域的应用,以 Lasso 为代表的高维回归方法均方兴未艾,影响深远。更详细的介绍将在 “高级计量经济学与Stata现场班”(北京,国庆节)进一步展开,包括岭回归(ridge regression)、弹性网(elastic net)、适应性套索(adaptive Lasso)、post Lasso、post double Lasso、IV Lasso 等。


高级计量经济学与Stata现场班(含机器学习与高维回归,北京,十一)

本文为山东大学陈强教授原创,摘自陈强老师微信公众号“econometrics-stata”,转载请注明作者与出处。

高维回归Lasso之Stata操作案例
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Stata LASSO tata Tibshirani regression

已有 1 人评分经验 论坛币 收起 理由
nuomin + 100 + 100 精彩帖子

总评分: 经验 + 100  论坛币 + 100   查看全部评分

cak647917 发表于 2020-12-3 19:00:07 |显示全部楼层 |坛友微信交流群
请问要怎么保存结果

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-17 03:32