楼主: 番茄奏鸣曲
4082 2

[问答] 决策树rpart()问题 [推广有奖]

  • 0关注
  • 0粉丝

硕士生

60%

还不是VIP/贵宾

-

威望
0
论坛币
1808 个
通用积分
30.4222
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
6004 点
帖子
92
精华
0
在线时间
150 小时
注册时间
2012-2-20
最后登录
2022-4-28

40论坛币
我发现使用rpart()的时候,好像决策树不会按照给我放了多少variable来分tree<-rpart(Employee.Status ~.,data = dummydf ),我的variable大概有18个左右 (要求是给出性别啊,年纪啊,学历啊,这些来判断这个人在公司工作的稳定性,是否容易离职)谢谢哦

问题来了:
1. 我想知道背后的原因?
2.我怎么看最后的那个结果局就是那个树
tree


最佳答案

owenqi 查看完整内容

1.如果你的结果是判断某人是否会离职,那就是分类树(classification tree)那你用rpart做决策默认使用的是基尼指数(gini index),当然也可以使用交叉熵(cross entropy),这两个无论选哪个都是在你所有的变量里面按照顺序选择“最重要”的变量(根据吉尼指数)。 2.没看懂你想问什么,如果根据猜测的话,你图上的那个树如果没有剪枝(pruning)的话,可以算是最后的树了。 建议你去仔细读一下决策树的原理和实现,就可以基本 ...
关键词:rpart PART ART 决策树 Variable
沙发
owenqi 在职认证  学生认证  发表于 2022-2-22 10:54:31 |只看作者 |坛友微信交流群
1.如果你的结果是判断某人是否会离职,那就是分类树(classification tree)那你用rpart做决策默认使用的是基尼指数(gini index),当然也可以使用交叉熵(cross entropy),这两个无论选哪个都是在你所有的变量里面按照顺序选择“最重要”的变量(根据吉尼指数)。
2.没看懂你想问什么,如果根据猜测的话,你图上的那个树如果没有剪枝(pruning)的话,可以算是最后的树了。
建议你去仔细读一下决策树的原理和实现,就可以基本上可以解答你本身的疑问。

使用道具

藤椅
silver_gp 在职认证  学生认证  发表于 2022-2-22 19:04:32 |只看作者 |坛友微信交流群
决策树选择哪个attribute去分岔,取决于用这个属性去分岔是否能得到最多的infromation gain。每一个节点要决定用哪个属性以及怎么分岔时,它会测试每一个attribute进行分岔之后,哪个infromation gain是最多的,于是就决定用哪个attribute分岔。information gain就是先算出当前节点的entropy,以及分岔之后各自算entropy之和,看看比分岔前少了多少。大概流程就是这个样子。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-17 09:32