楼主: 南0
616 2

[作业] 笔记:广义回归与决策树的区别 [推广有奖]

  • 1关注
  • 2粉丝

已卖:8份资源

初中生

23%

还不是VIP/贵宾

-

威望
0
论坛币
9 个
通用积分
57.9500
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1980 点
帖子
5
精华
0
在线时间
12 小时
注册时间
2022-3-13
最后登录
2025-8-7

楼主
南0 发表于 2025-6-11 20:08:55 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

广义回归,也称为惩罚回归和正则化回归。与经典普通最小二乘法(OLS)回归和广义回归同属于回归建模方法,而且与 OLS 相同,其基础也是基于 P 值的假设检验方法。广义回归体现了现代数据科学的某些特征。例如,该算法会不断探索不同的路径,直到找到最优解;通过惩罚和正则化来缓解过度拟合的问题。惩罚是指当模型变得过于复杂时对其施加惩罚,而正则化是指对系数估计值进行约束(正则化)。广义回归有很多种类型,都利用了损失函数控制拟合过程,如 LASSO、岭回归和弹性网络。以下将分开介绍这三种方法。

1.1.  LASSO

是一种用于拟合线性回归模型的正则化方法,通过损失函数中加入 L1 惩罚项,实现变量选择(特征选择)和防止拟合。起特点是,它会倾向于返回一个高度简约的模型,因此,会讲系数赋值为 0 。优点是:自动变量选择,L1 惩罚将不重要的回归系数精确收缩至 0,适用于高纬数据;防止过拟合,通过调整 λ ,可以控制模型复杂度,实现数据在训练集和测试集上同等变现;可以通过坐标下降法等算法,搞笑求解 LASSO 问题,提高计算效率;缺点是:变量选择可能不稳定;预测精度可能不如岭回归;最优的 λ ,通常需要通过交叉验证确定,计算成本较高;在 p >> n 的场景下,如果所有特征都对目标变量有贡献,LASSO 可能会错误地丢弃部分变量。适用于 p >> n,希望模型具有可解释性,只保留关键变量等场景。

模型的输出是得到一组权重明确的预测因素,适合解释每个变量的边际影响。优点是,适合因果推断,对线性关系敏感,适合连续型或逻辑型输出。缺点是:假设变量间关系固定,可能忽略交互作用。

1.2.  岭回归

也是一种线性回归模型的正则化方法,不同之处在于在损失函数中加入的是 L2 惩罚项。与 L1 不同,L2 正则化是将系数向零压缩,但是不会压缩至零,所以相较于 L1,其模型会更复杂。其优点是:当特征高度相关时,岭回归中能给出更合理的系数;可以通过 λ 控制模型复杂度,避免过度拟合;适用于高纬数据;L2 惩罚可以使所有系数均等的向零收缩,但不会完全为 0,会保留所有变量的信息。缺点是:所有特征均保留在模型中,解释性稍差;与 LASSO 相同,需最优 λ 通常通过交叉验证确定,计算成本偏高;使用平方损失函数,对异常值鲁棒性较差;适用于特征高度相关,需要稳定解释的场景。

1.3.  弹性网络

弹性网络方法结合了 LASSO 和岭回归的损失函数和正则化,因此被很多研究人员认为是最优的线性回归方法,但是其应用却并不广泛。其优点是:同时支持变量选择与共线性处理;适用于 p >> n;通过调整 α 和 可灵活适应不同数据场景:优于单独使用 LASSO 或 岭回归。缺点是:需要调整两个超参数,需要交叉验证的计算成本较高;解释性略低于 LASSO;对异常值敏感,对异常值鲁棒性较差。适用于,特征高度相关且需变量选择的应用场景;适用于高维数据 p >> n;或者需要平衡稀疏性与稳定性的场景。

模型的输出是得到一组权重明确的预测因素,适合解释每个变量的边际影响。优点是,适合因果推断,对线性关系敏感,适合连续型或逻辑型输出。缺点是:假设变量间关系固定,可能忽略交互作用。


决策树(Decision Tree),简称 DT,基于 if-else 的规则生成模型,核心思想是通过递归分割数据,追求节点纯度(如基尼系数或信息熵最小化)。原理是,通过不断分裂数据集来使每个子集中的样本“更纯”,通常基于信息增益或基尼指数。当继续分裂不再提升预测效果时,树就会停止分裂(即“饱和”)。特点是,可以用尽量少的变量,就能做出识别决策。执行速度快,结构清晰,非常适合规则提取和快速决策。另外决策树的输出是一个属性规则集,可能忽略次要变量。优点是:可以自动捕捉变量间交互作用,对非线性关系和异常值鲁棒性。缺点是:容易过拟合;规则可能不稳定,尤其是在深树结构中。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:决策树 Decision 线性回归模型 LASSO 非线性关系 笔记 数据科学

沙发
tianwk 发表于 2025-6-12 00:21:35
thanks for sharing

藤椅
512661101 发表于 2025-6-12 20:42:33
谢谢分享!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-7 07:02