楼主: xiaocaibaozi
19123 1

[问题] 数据挖掘中训练集和测试集的比例多少比较合适 [推广有奖]

  • 1关注
  • 0粉丝

初中生

4%

还不是VIP/贵宾

-

威望
0
论坛币
1 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
183 点
帖子
14
精华
0
在线时间
2 小时
注册时间
2013-7-19
最后登录
2013-7-24

楼主
xiaocaibaozi 发表于 2013-7-24 11:29:16 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我总体的数据有7473个,是非平衡数据集,随机抽取测试集的时候,我抽取了2491个,也就是大概1/3,可是我觉得抽取的数量有些太多了,想问下对于这个数据集什么样的比例比较合适,单个的训练集的数目应该多少,是不是还要采用欠采样来保证数据预测的平衡性?求解答
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据挖掘 训练集 测试集 非平衡数据 数据预测 平衡

沙发
kuangsir6 发表于 2013-7-24 13:48:12
根据我们的一次模拟,你抽的这个数字应该是比较恰当的。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-24 19:57