楼主: 时光永痕
560 0

[数据挖掘新闻] Scikit学习和Spark中决策树,随机森林和特征重要性的数学 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

42%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-24

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
Scikit学习和Spark中决策树,随机森林和特征重要性的数学
介绍
这篇文章试图合并有关树算法及其在Scikit-learn和Spark中的实现的信息。特别是,它是为了澄清如何计算特征重要性而编写的。
在线上有很多很棒的资源,讨论如何创建决策树和随机森林,而本帖子并非旨在如此。尽管它包括上下文的简短定义,但它假定读者已经掌握了这些概念,并希望了解如何在Scikit-learn和Spark中实现算法。
所以,让我们开始……
决策树
决策树学习如何最好地将数据集分成越来越小的子集来预测目标值。条件表示为“叶子”(节点),决策表示为“分支”(边缘)。拆分过程将继续进行,直到无法获得进一步的收益或满足预设规则为止,例如,达到树的最大深度。
决策树算法
有多种算法,scikit-learn文档提供了其中一些算法的概述。
那么,Scikit学习和Spark使用什么呢?
Scikit-learn文档指出它正在使用“ CART算法的优化版本”。尽管未在文档中明确提及,但可以推断Spark正在将ID3与CART一起使用。
因此,让我们集中讨论这两个ID3和CART。
ID3
该算法创建了一个多向树-每个节点可以具有两个或更多边缘-使用杂质准则熵找到可以最大化信息增益的分类特征。它不仅不能处理数字特征,而且仅适用于分类问题。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Spark Park 随机森林 SPAR 决策树

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-26 14:10