楼主: 时光永痕
1812 0

[数据挖掘新闻] 决策树,随机森林,梯度提升机:简单解释 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

3%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2020-9-17 19:30:44 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
决策树,随机森林,梯度提升机:简单解释
决策树,随机森林和增强技术  是数据科学家使用的16大数据科学和机器学习工具。三种方法相似,但有大量重叠。简而言之:
一个决策树是一个简单的,决策-图。
随机森林是大量树木,在流程结束时组合在一起(使用平均值或“多数规则”)。
梯度提升机也可以组合决策树,但是要在开始而不是结束时开始合并过程。
决策树及其问题
决策树是一系列顺序步骤,旨在回答问题并提供做出特定决策的概率,成本或其他结果。
它们易于理解,提供清晰的视觉效果以指导决策过程。但是,这种简单性带来了一些严重的缺点,包括过度拟合,  由于偏差  引起的误差和由于方差引起的误差。  
过度拟合的发生有很多原因,包括存在噪音  和缺乏代表性实例。一棵大(深)树可能过度拟合。
当对目标函数设置太多限制时,就会发生偏差错误。例如,使用限制函数(例如,线性方程式)或简单的二进制算法(如上述树中的是/否选择)来限制结果通常会导致偏差。
方差误差是指根据训练集的变化结果将变化多少。决策树具有很高的方差,这意味着训练数据中的微小变化有可能导致最终结果发生较大变化。
随机森林与决策树
如上所述,决策树充满了问题。由99个数据点生成的树可能与仅由一个不同数据点生成的树有很大不同。如果有一种方法可以生成大量的树,将它们的解决方案平均化,那么您可能会得到一个与真实答案非常接近的答案。输入  随机森林 -带有单个汇总结果的决策树集合。通常,随机森林是最准确的学习算法。
随机森林通过以下方式减少了决策树中的方差:
使用不同的样本进行训练,
指定随机特征子集,
构建并合并小(浅)树。
单个决策树的预测能力很弱,但是建立起来相对较快。更多的树可以为您提供更健壮的  模型,并防止过拟合。但是,您拥有的树越多,过程就越慢。森林中的每棵树都必须生成,处理和分析。此外,您拥有的功能越多,过程就越慢(有时可能需要数小时  甚至数天);减少功能集可以大大加快该过程。
决策树和随机森林之间的另一个明显区别是,尽管决策树易于阅读(您只需遵循路径并找到结果),但随机森林的解释却有点复杂。那里有大量的文章旨在帮助您从随机森林中读取结果(像这样),但是与决策树相比,学习曲线陡峭。
随机森林vs梯度提升
像随机森林一样,梯度增强是一组决策树。两个主要区别是:
树木的构建方式:随机森林独立地构建每棵树,而梯度增强则一次构建一棵树。这种加性模型(合奏)以阶段性的方式工作,引入了弱学习者以改善现有弱学习者的缺点。
合并结果:随机森林在流程结束时合并结果(通过平均或“多数规则”),而梯度增强则沿途合并结果。
如果您仔细调整参数,则梯度增强可以比随机森林获得更好的性能。但是,如果您有很多噪声,则梯度增强可能不是一个好的选择,因为它可能导致过度拟合。它们也往往比随机森林更难调整。
随机森林和梯度助推器在不同区域均表现出色。随机森林在进行多类对象检测  和生物信息学方面表现良好  ,  这往往会产生大量统计噪声。当您拥有不平衡的数据(例如实时风险评估)时,梯度提升效果很好。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:随机森林 提升机 决策树 数据科学家 过度拟合

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-20 07:02