请选择 进入手机版 | 继续访问电脑版
楼主: 我的素质低
23724 52

[R] 〖素质笔记〗决策树之ID3、C4.5、C5.0等五大算法   [推广有奖]

学术权威

83%

还不是VIP/贵宾

-

TA的文库  其他...

〖素质文库〗

结构方程模型

考研资料库

威望
8
论坛币
23388 个
通用积分
28302.3504
学术水平
2705 点
热心指数
2881 点
信用等级
2398 点
经验
223233 点
帖子
2977
精华
52
在线时间
2175 小时
注册时间
2012-11-24
最后登录
2024-1-13

一级伯乐勋章 初级学术勋章 初级热心勋章 初级信用勋章 中级热心勋章 中级学术勋章 中级信用勋章 高级学术勋章 高级热心勋章 高级信用勋章 特级学术勋章

我的素质低 学生认证  发表于 2015-8-13 20:14:37 |显示全部楼层 |坛友微信交流群
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币


C5.0决策树之ID3、C4.5、C5.0算法




一、起源




   最早的决策树算法起源于CLS(Concept Learning System)系统,即概念学习系统。它是最早的决策树算法,为今后的许多决策树算法提供了借鉴。[]


   决策树模型,通过对训练样本的学习,建立分类规则;依据分类规则,实现对新样本的分类;属于有指导(监督)式的学习方法,有两类变量:目标变量(输出变量),属性变量(输入变量)。


决策树模型与一般统计分类模型的主要区别:决策树的分类是基于逻辑的,一般统计分类模型是基于非逻辑的。


   1、常见决策树


   常见的算法有CHAID、CART、Quest和C5.0。对于每一个决策要求分成的组之间的“差异”最大。各种决策 树算法之间的主要区别就是对这个“差异”衡量方式的区别。


   决策树很擅长处理非数值型数据,这与神经网络智能处理数值型数据比较而言,就免去了很多数据预处理工作。[]


二、原理——如何制定节点[]




1、信息熵(Entropy)


信息量的数学期望,是心愿发出信息前的平均不确定性,也称先验熵。


决策属性的Entropy(熵):


2、信息增益


例如outlook里面有三个属性sunny、OverCas、Rain,每个属性在决策属性中,sunny有2个yes,3个no。


outlook信息增益:


=0.940286-5/14*0.97095-0-5/14*0.97095=0.24675


以下其他属性同理。


Outlook=0.24675


我们看到Outlook的信息增益是最大的,所以作为决策树的一个根节点。即:



然后,从Outlook下面出来三个树枝,最左边的Sunny,我们从Outlook是Sunny的实例数据中,找到信息增益最大的那一个,依次类推。



3、分离信息(Split Information)


数据集通过条件属性A的分离信息。


分离信息的计算方法,数学符号表达式为:


数据集通过Outlook这个条件属性的分离信息,Outlook有三个属性值分别为:Sunny,Overcast,Rain,它们各占5,4,5,所以:



4、信息增益率(Information gain ratio)

数学符号表达式


数据集S针对Outlook的信息增益率,


分子和分母这两个值都已经求出来,选择信息增益率最大的那个属性,作为节点。



5、剪枝

剪枝一般分两种方法:先剪枝和后剪枝。


(1)先剪枝


   先剪枝方法中通过提前停止树的构造(比如决定在某个节点不再分裂或划分训练元组的子集)而对树剪枝。

先剪枝有很多方法,比如(1)当决策树达到一定的高度就停止决策树的生长;(2)到达此节点的实例具有相同的特征向量,而不必一定属于同一类,也可以停止生长(3)到达此节点的实例个数小于某个阈值的时候也可以停止树的生长,不足之处是不能处理那些数据量比较小的特殊情况(4)计算每次扩展对系统性能的增益,如果小于某个阈值就可以让它停止生长。先剪枝有个缺点就是视野效果问题,也就是说在相同的标准下,也许当前扩展不能满足要求,但更进一步扩展又能满足要求。这样会过早停止决策树的生长。


   (2)后剪枝


   它由完全成长的树剪去子树而形成。通过删除节点的分枝并用树叶来替换它。树叶一般用子树中最频繁的类别来标记。


   (3)悲观剪枝法


   使用训练集生成决策树又用它来进行剪枝,不需要独立的剪枝集。


   悲观剪枝法的基本思路是:设训练集生成的决策树是T,用T来分类训练集中的N的元组,设K为到达某个叶子节点的元组个数,其中分类错误地个数为J。由于树T是由训练集生成的,是适合训练集的,因此J/K不能可信地估计错误率。




三、ID3、C4.5、C5.0对比





四、五种决策算法的比较[]




   通过十七个公开数据集,对比FS-DT、Yuan’s、FDT、C4.5、Fuzzy ID3、CART五种决策树方法。

   1、准确率比较



   CD值,临界差值,在Nemenyi检验和Tukey检验方法两种检验方法用差异时可以用CD值来衡量。得分越低,表示相应的算法的准确率越高。


Fuzzy ID3比FS-DT表现优秀。


   2、叶子节点比较



   普遍看来,CART和FS-DT两种算法的叶子节点数目比较少。


   比较三种模糊决策树,FS-DT、Yuan’s FDT、Fuzzy ID3,FS-DT算法节点比较少。



   3、相似性比较


   关于相似性,一种观点认为两种分类器的分类准确率相同,则它们具有较高的相似度;另一方面,即两种分类器讲相同的样本分到了同一类,则相似度较高。


   大部分两次实验的相似度能达到以上,但有些实验的相似度只有,如应用于第二类五次实验的相似度。


   下面分析具体是哪种原因导致上面的问题。对于C4.5应用于Iris数据集,第二类的相似度中存在只有50%的相似度问题,对比算法在第二类的相似度,全部高于90%,这说明分类器的选取没有问题。问题可能存在于Iris数据集中第二类的数据中,这一类数据集分布不集中,导致了分类难度的增加。



(欢迎加好友,一起学习哟~~

image-0001.jpg

image-0002.jpg

image-0003.jpg

image-0004.jpg

image-0005.jpg

image-0006.jpg

image-0007.jpg

image-0008.jpg

image-0009.jpg

image-0010.jpg






二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:决策树 information Informatio formation informat 学习方法 outlook sunny 模型 如何

已有 3 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
xddlovejiao1314 + 100 + 100 + 5 + 5 + 5 精彩帖子
胖胖小龟宝 + 100 + 5 + 5 素质又出精品啦!
niuniuyiwan + 60 + 60 + 5 + 5 + 5 精彩帖子

总评分: 经验 + 260  论坛币 + 160  学术水平 + 10  热心指数 + 15  信用等级 + 15   查看全部评分

本帖被以下文库推荐

心晴的时候,雨也是晴;心雨的时候,晴也是雨!
扣扣:407117636,欢迎一块儿吐槽!!
niuniuyiwan 在职认证  发表于 2015-8-14 07:36:09 |显示全部楼层 |坛友微信交流群

回帖奖励 +1

感谢分享,感谢楼主,用心良苦,令人钦佩。
已有 2 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
xddlovejiao1314 + 10 + 2 鼓励积极发帖讨论
我的素质低 + 100 + 3 + 1 + 1 + 1 精彩帖子

总评分: 经验 + 110  论坛币 + 5  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

wangcanjie 发表于 2015-8-18 12:37:59 |显示全部楼层 |坛友微信交流群

回帖奖励 +1

没有电子版吗?
已有 1 人评分经验 论坛币 收起 理由
xddlovejiao1314 + 10 + 2 鼓励积极发帖讨论

总评分: 经验 + 10  论坛币 + 2   查看全部评分

使用道具

金融29号 发表于 2015-8-20 22:05:45 |显示全部楼层 |坛友微信交流群

回帖奖励 +1

这个算法好~要好好学习一下了
已有 1 人评分经验 论坛币 收起 理由
xddlovejiao1314 + 10 + 2 鼓励积极发帖讨论

总评分: 经验 + 10  论坛币 + 2   查看全部评分

使用道具

八九十支 发表于 2015-8-21 13:23:53 |显示全部楼层 |坛友微信交流群

回帖奖励 +1

不错谢楼主
已有 1 人评分经验 论坛币 收起 理由
xddlovejiao1314 + 10 + 2 鼓励积极发帖讨论

总评分: 经验 + 10  论坛币 + 2   查看全部评分

使用道具

tbs20 发表于 2015-8-26 09:19:31 |显示全部楼层 |坛友微信交流群

回帖奖励 +1

整理得不错
已有 1 人评分经验 论坛币 收起 理由
xddlovejiao1314 + 10 + 2 鼓励积极发帖讨论

总评分: 经验 + 10  论坛币 + 2   查看全部评分

使用道具

pilibaofeng 发表于 2015-10-20 20:35:45 |显示全部楼层 |坛友微信交流群

回帖奖励 +1

[victory]

使用道具

游龙2015 发表于 2015-11-15 13:50:43 |显示全部楼层 |坛友微信交流群

回帖奖励 +1

正好在学习决策树章节。谢谢!

使用道具

哈比酱 发表于 2015-12-4 11:50:59 |显示全部楼层 |坛友微信交流群

回帖奖励 +1

回帖回帖

使用道具

laodong1983 在职认证  发表于 2015-12-17 14:19:06 |显示全部楼层 |坛友微信交流群

回帖奖励 +1

很好的学习材料

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-28 20:41