楼主: adrian-cts
4147 2

[问题] 大家好!我想问一下关于决策树中,数据的处理有哪些注意的地方,比如异常值的处理 [推广有奖]

  • 0关注
  • 0粉丝

小学生

64%

还不是VIP/贵宾

-

威望
0
论坛币
8 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
103 点
帖子
3
精华
0
在线时间
10 小时
注册时间
2015-8-3
最后登录
2016-4-2

楼主
adrian-cts 发表于 2016-3-28 15:35:05 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
1.选择放进模型的变量,应该如何选择,我所知道的是避免多重共线性,异方差性的情况。
2.对于评价这个决策树的效果,有没有什么指标,我通过后剪枝的方法,并用predict函数跟测试集数据验证,准确率为83%,
对于这个结果,我想确认是否可以认定这个决策树比较ok?

再次感谢大家帮助,谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:决策树 大家好 注意的 异常值 predict 准确率 模型 如何

沙发
aimy260 发表于 2016-3-29 21:58:50
1、变量选择的方法有很多种。一个是看变量数据是否OK,缺失情况等,另一个是看变量在正负样本上的区分能力。可以通过历史经验选择,也可以通过数据的方法,如信息值等方法。共线性是因为变量间的强相关性,如果要消除共线性,可以通过对相关性强的变量做处理后再建模,处理的方法可以是剔除强相关的变量,也可以是降维用新的变量建模,当然也可以选择复杂算法如随机森林之类的。当然如果你的数据量比较大,决策树对共线性并不会太敏感。
2、模型效果的评估,一方面是模型稳定性的评估,如在不同数据集上的效果是否稳定;另一方面是模型性能的评估,这个就需要基于你预定的目标和现状,看有了模型ROC达到多少,PR图上的P、R达到了多少,能比现在提升多少。
已有 1 人评分论坛币 学术水平 热心指数 收起 理由
admin_kefu + 30 + 1 + 2 热心帮助其他会员

总评分: 论坛币 + 30  学术水平 + 1  热心指数 + 2   查看全部评分

藤椅
adrian-cts 发表于 2016-3-30 14:21:25
非常感谢!另外我还想问问关于异常值的处理,模型中有几个连续型数值变量,偏度较大,这种情况下是否需要进行非线性转换呢?

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-31 21:39