[问答] 决策树rpart()问题 [推广有奖]

0关注
0粉丝

硕士生

60%

还不是VIP/贵宾

威望: 0 级
论坛币: 1808 个
通用积分: 30.4222
学术水平: 0 点
热心指数: 4 点
信用等级: 0 点
经验: 6004 点
帖子: 92
精华: 0
在线时间: 150 小时
注册时间: 2012-2-20
最后登录: 2022-4-28

楼主

番茄奏鸣曲 发表于 2022-2-22 10:54:30 |只看作者 |坛友微信交流群|倒序 |AI写论文

40论坛币

我发现使用rpart()的时候，好像决策树不会按照给我放了多少variable来分tree<-rpart(Employee.Status ~.,data = dummydf )，我的variable大概有18个左右 (要求是给出性别啊，年纪啊，学历啊，这些来判断这个人在公司工作的稳定性，是否容易离职）谢谢哦

问题来了：
1. 我想知道背后的原因？
2.我怎么看最后的那个结果局就是那个树
tree

最佳答案

owenqi 查看完整内容

1.如果你的结果是判断某人是否会离职，那就是分类树（classification tree）那你用rpart做决策默认使用的是基尼指数（gini index），当然也可以使用交叉熵（cross entropy），这两个无论选哪个都是在你所有的变量里面按照顺序选择“最重要”的变量（根据吉尼指数）。 2.没看懂你想问什么，如果根据猜测的话，你图上的那个树如果没有剪枝（pruning）的话，可以算是最后的树了。建议你去仔细读一下决策树的原理和实现，就可以基本 ...

分享0 收藏0 回帖

关键词：rpart PART ART 决策树 Variable

使用道具举报

沙发

owenqi

发表于 2022-2-22 10:54:31 |只看作者 |坛友微信交流群

1.如果你的结果是判断某人是否会离职，那就是分类树（classification tree）那你用rpart做决策默认使用的是基尼指数（gini index），当然也可以使用交叉熵（cross entropy），这两个无论选哪个都是在你所有的变量里面按照顺序选择“最重要”的变量（根据吉尼指数）。
2.没看懂你想问什么，如果根据猜测的话，你图上的那个树如果没有剪枝（pruning）的话，可以算是最后的树了。
建议你去仔细读一下决策树的原理和实现，就可以基本上可以解答你本身的疑问。

使用道具举报

藤椅

silver_gp

发表于 2022-2-22 19:04:32 |只看作者 |坛友微信交流群

决策树选择哪个attribute去分岔，取决于用这个属性去分岔是否能得到最多的infromation gain。每一个节点要决定用哪个属性以及怎么分岔时，它会测试每一个attribute进行分岔之后，哪个infromation gain是最多的，于是就决定用哪个attribute分岔。information gain就是先算出当前节点的entropy，以及分岔之后各自算entropy之和，看看比分岔前少了多少。大概流程就是这个样子。

使用道具举报