楼主: 胖胖小龟宝
5162 3

[其他] 岭回归简介 [推广有奖]

已卖:46份资源

大师

21%

还不是VIP/贵宾

-

TA的文库  其他...

龟宝的档案室

威望
3
论坛币
793115 个
通用积分
22228.9852
学术水平
2211 点
热心指数
2133 点
信用等级
1424 点
经验
987208 点
帖子
9996
精华
25
在线时间
4757 小时
注册时间
2012-7-27
最后登录
2020-12-21

楼主
胖胖小龟宝 发表于 2014-4-30 18:52:08 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
岭回归用于处理下面两类问题:


1.数据点少于变量个数

2.变量间存在共线性


变量间存在共线性是,最小二乘回归得到的系数不稳定,方差很大,这是因为系数矩阵x与它的转置矩阵相乘得到的矩阵不能求逆,而ridge regression通过引入lamda参数,使得该问题得到解决。在R语言中,MASS包中的函数lm.ridge()可以很方便地完成。它的输入矩阵x始终为n*p维,不管是否包含常数项。


当包含常数项时,该函数对y进行中心化,以y的均值作为因子,对x进行中心化和归一化,以x中各个变量的均值和标准差作为因子。这样对x和y处理后,x和y的均值为0,这使得回归平面经过原点,即常数项为0.因此,虽然指定了包含常数项,它给出的系数lmrige coef里也没有常数项的值。在使用该模型进行预测的时候,也需要首先对x和y进行中心化和归一化,因子是使用训练时候进行中心化和归一化的因子,然后再与系数相乘得到的预测结果,这里需要指出的是,如果建立模型后在命令行窗口直接输入lmridge,也会出现一整套系数,该系数会包含常数项,这个系数和模型给出的系数lmridge coef不一样,因为它是针对没有归一化和中心化数据的,在预测的时候可以直接使用该系数,不需要对数据进行归一化和中心化。


当指定模型不包含常数项时,因为要强调通过原点,该模型假设各个变量的均值为0,因此不对x和y进行中心化。但是对x进行归一化,而且归一化因子也是假设变量均值为0计算出的该变量的标准差。在进行预测的时候,如果使用lmridge$coef的系数,那么需要对数据进行归一化。如果使用lmridge直接给出的系数,只需要直接相乘。


ridge regression中lamda的选择:可以使用select(lmridge)进行自动设置,一般使用GCV最小值,lamda的范围是大于0即可。


岭回归的原理:岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价,获得回归系数更为符合实际、更可靠的回归方法,对病态数据的耐受性远远强于最小二乘法。


岭回归的原理较为复杂。根据高斯马尔科夫定理,多重相关性并不影响最小二乘法估计量的无偏性和最小方差性,但是,虽然最小二乘估计量在所有线性估计量中是方差最小的,但是这个方差都不一定小,而实际上可以找到一个有偏估计量,这个估计量虽然有较小的偏差,但它的精度却能够大大高于无偏的估计量。岭回归分析就是根据这个原理,通过在正规方程中引入有偏常熟二求的回归估计量的。


缺点:通常岭回归方程的R平方值会稍低于普通回归分析,但回归系数的显著性往往明显高于普通回归,在存在共线性问题和病态数据偏多的研究中有较大的实用价值。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:岭回归 regression regressio regress 最小二乘估计 岭回归 回归分析 马尔科夫 多重相关

已有 1 人评分经验 学术水平 收起 理由
lxfkxkr + 100 + 1 精彩帖子

总评分: 经验 + 100  学术水平 + 1   查看全部评分

沙发
noona 学生认证  发表于 2014-5-1 23:03:12
好好好

藤椅
唐伯小猫 发表于 2014-5-2 14:32:06
非常好啊,谢谢楼主,真巧,这两天正在看这个东东,有点问题想讨论,但是没时间了,等我晚上回来再问吧。先mark!
心若向阳,无畏悲伤。

板凳
唐伯小猫 发表于 2014-5-6 03:36:14
顶一下,并且弱问什么是归一化?
心若向阳,无畏悲伤。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-11 15:09