人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析与数据挖掘 › 分类模型知识补充

发帖

楼主: xiaoxiaofei_123

1006 0

[数据挖掘工具] 分类模型知识补充 [推广有奖]

0关注
0粉丝

已卖：2份资源

大专生

56%

还不是VIP/贵宾

威望: 0 级
论坛币: 51 个
通用积分: 4.4196
学术水平: 31 点
热心指数: 40 点
信用等级: 21 点
经验: 1119 点
帖子: 15
精华: 0
在线时间: 68 小时
注册时间: 2017-10-11
最后登录: 2020-4-30

楼主

xiaoxiaofei_123 发表于 2017-11-30 18:48:21 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

之前用了rpart 包做决策树模型，rpart函数已经包含了各种可以优化这棵树的参数。但是它限制的节点分裂方法只有基尼系数和ID3.

下面介绍C4.5算法实现的包（后面升级为C4.8，创建了java环境下的J48，所以J48由此而来，后面升级为C50）

library(RWeka)

m1 <- J48(Species ~ ., data = iris)

library（C50）

ruleModel <- C5.0(churn ~ ., data = churnTrain, rules = TRUE)summary(ruleModel)

R中与决策树有关的Package:
单棵决策树：rpart/tree/C50
随机森林：randomforest/ranger
梯度提升树：gbm/xgboost
树的可视化：rpart.plot

随机森林

决策树+bagging= randomForest 随机森林

决策树+booststrap=GBDT 梯度上升决策树

library(randomForest)

该函数中的决策树基于基尼指数（Giniindex）构建，即CART分类决策树，

每棵树随机选取的特征数约等于总特征数的平方根。

1.（回归树中做变量重要性计算指标是RSS，比如身高这个特征，在10棵树中每次分裂整体SSE减少的量相加，并计算均值，越大代表这个变量重要性越大）

2.（分类树中是基尼指标，比如体重这个特征，在10棵树中每次分裂这棵树的基尼系数减少的量相加，并计算均值，越大代表这个变量重要性越大）

3.boostrap中

树的个数m，不像bagging和随机森林，m个数如果太大，容易过拟合，所以用交叉验证方法确定m；

收缩参数a,0.001或0.01，a较小的时候m可以较大。

每棵树中的分裂点d（d+1个叶结点）,d=1时，相当于仅仅是一个树桩。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Library java环境 rpart RWeka BRARY

已有 1 人评分	经验	论坛币	学术水平	热心指数	信用等级	收起理由
阿扁V5	+ 60	+ 24	+ 5	+ 1	+ 1	精彩帖子

总评分: 经验 + 60 论坛币 + 24 学术水平 + 5 热心指数 + 1 信用等级 + 1 查看全部评分

返回列表

发帖

本版微信群

加好友,备注cda
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[数据挖掘工具] 分类模型知识补充 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

浏览过的帖子

浏览过的版块

本版微信群

[数据挖掘工具] 分类模型知识补充 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群