人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析与数据挖掘 › Scikit学习和Spark中决策树，随机森林和特征重要性的数学 ...

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: 时光永痕

560 0

[数据挖掘新闻] Scikit学习和Spark中决策树，随机森林和特征重要性的数学 [推广有奖]

0关注
14粉丝

svip3

学术权威

12%

（VIP/贵宾）三级

42%

威望: 0 级
论坛币: 26 个
通用积分: 49.7576
学术水平: 4 点
热心指数: 4 点
信用等级: 4 点
经验: 34070 点
帖子: 2731
精华: 0
在线时间: 316 小时
注册时间: 2020-7-21
最后登录: 2024-4-24

楼主

时光永痕

发表于 2020-9-22 20:57:13 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

Scikit学习和Spark中决策树，随机森林和特征重要性的数学
介绍
这篇文章试图合并有关树算法及其在Scikit-learn和Spark中的实现的信息。特别是，它是为了澄清如何计算特征重要性而编写的。
在线上有很多很棒的资源，讨论如何创建决策树和随机森林，而本帖子并非旨在如此。尽管它包括上下文的简短定义，但它假定读者已经掌握了这些概念，并希望了解如何在Scikit-learn和Spark中实现算法。
所以，让我们开始……
决策树
决策树学习如何最好地将数据集分成越来越小的子集来预测目标值。条件表示为“叶子”（节点），决策表示为“分支”（边缘）。拆分过程将继续进行，直到无法获得进一步的收益或满足预设规则为止，例如，达到树的最大深度。
决策树算法
有多种算法，scikit-learn文档提供了其中一些算法的概述。
那么，Scikit学习和Spark使用什么呢？
Scikit-learn文档指出它正在使用“ CART算法的优化版本”。尽管未在文档中明确提及，但可以推断Spark正在将ID3与CART一起使用。
因此，让我们集中讨论这两个ID3和CART。
ID3
该算法创建了一个多向树-每个节点可以具有两个或更多边缘-使用杂质准则熵找到可以最大化信息增益的分类特征。它不仅不能处理数字特征，而且仅适用于分类问题。

关注 CDA人工智能学院，回复“录播”获取更多人工智能精选直播视频！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Spark Park 随机森林 SPAR 决策树

[数据挖掘新闻] Scikit学习和Spark中决策树，随机森林和特征重要性的数学 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[数据挖掘新闻] Scikit学习和Spark中决策树，随机森林和特征重要性的数学 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群