楼主: yyaoyy
7026 3

[clementine] 急!Clementine训练数据和测试数据问题求助 [推广有奖]

  • 0关注
  • 0粉丝

学前班

50%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
23 点
帖子
2
精华
0
在线时间
0 小时
注册时间
2010-11-29
最后登录
2011-5-4

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
需要用Clementine中的CART或者C5.0对一系列的数据进行处理,生成分类树。
1,需要将源数据分成训练集数据和测试集数据吗?
看Clementine自带的Demo里面的模型里没看到明显的将数据分成这两类的啊。
之前实验的时候都是把所有的数据作为训练数据输入到CART或者C5.0模型中,这样得到的树和分一部分的数据作为测试的差别大吗?

2,如果需要将数据分成训练集数据和测试集数据,怎么区分?
我看网上有好几种说法。
有的说使用字段选项的分区节点,将数据分成训练集数据和测试数据,先用训练数据得到预测模型,然后将界面右上角的模型加到测试数据后面,再添加一个分析节点。
还有种说法是说使用m-folder cross validation即交叉验证的方法。但是CART模型里面没有这个选项。C5.0有这个选项,不大清楚折叠次数怎么设置。如果要训练数据:测试数据=1:1的话,折叠次数是2吗?如果是7:3呢?预设的是10代表什么含义?

不胜感激!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:clementine clementin Clement 训练数据 测试数据 clementine 训练数据 测试数据

沙发
lvyuqin0624 在职认证  发表于 2012-3-22 13:30:33 |只看作者 |坛友微信交流群
同问。。。

使用道具

藤椅
dl_user_tt 发表于 2013-3-7 00:29:10 |只看作者 |坛友微信交流群
Clementine中将数据分为训练集和测试集

选择partition节点 连接入数据流,在里面可以设置训练集、测试集及验证集,若要平分在测试集及训练集栏位内填上50%。 另外可以设置标签及数值;下面的设置是对数据表中增加标志字段,如flag,(区分测试集和训练集)的数值进行选择,例如,使用“1_training“等来表示训练集。在分割完不同集合后,可以右击partition节点,选择cache中enable,这样随机分割完的数据就可以暂时存在缓存中,这样不同时进行不同建模的时候就不会因为样本不同而使结构受影响

使用道具

板凳
weibaojun641 发表于 2013-4-19 15:55:10 |只看作者 |坛友微信交流群
受教了

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 23:16