楼主: 8810
2417 1

[数据挖掘理论与案例] 训练模型时如何避免过度拟合,怎样评估模型的准确性 [推广有奖]

  • 0关注
  • 0粉丝

小学生

0%

还不是VIP/贵宾

-

威望
0
论坛币
15 个
通用积分
1.0000
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
90 点
帖子
2
精华
0
在线时间
2 小时
注册时间
2016-12-27
最后登录
2017-3-6

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
数据挖掘过程中,在训练模型时,切记一个词叫做过度拟合,过度拟合就是说你的模型过度的提取了这份样本数据的特征,将此模型进行应用的时候便会发现,准确性并不高。
一个与样本拟合程度过高的模型,已经与实际脱离,失去了应用的价值过度拟合就是为了达到一致假设,而使假设变得过度严格。


从商业应用上看模型的准确定,就需要从数据和应用实际出发。尤其对于预测类的模型,数据的分布要有清晰的掌握。列明几点:
1.在商业应用中,不可能获取到全部因素,同时还有随机因素影响,在实际中,有100%的准确度基本是不可能的
2.如果出现100%准确度的模型,需要检查是不是错误的引入了和预测变量相关的变量,这种变量对于未来本身就是不确定的。这种情况出现,一来本身就是错误,二来,这样的模型在实践中无法应用。
3.模型的准确性与样本数据结果也有关系,例如A类样本占有90%,B类样本占比10%,此时构建模型预测一个样本属于A还是B,即便模型将样本全部判定为A,模型的准确性还可达到90%,对于实践毫无益处。
4.针对第三点如何处理样本失衡问题。两种方式,一般来讲比较普遍的方式是做样本失衡的负抽样或正抽样处理(尽可能不破坏真实的比例,偏离整体越大,得到模型虽然训练的准确度很不错,但是容易过拟合);另外可以采用少样本重复(把样本的特征加强了,重复多次,强调样本特征)

注意一点:
1.使用SmartMining构建模型时,可以使用评估节点查看模型预测的准确性,还可以查看详细的模型评估。
2.可以使用样本抽样,通过对比不用样本的模型准确性,以检测模型是否稳定。
数据挖掘软件.rar (261 Bytes, 需要: 5 个论坛币)

(转发注明出处)


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:过度拟合 模型评估 样本 准确度 模型

已有 1 人评分经验 收起 理由
飞天玄舞6 + 50 精彩帖子

总评分: 经验 + 50   查看全部评分

沙发
tianwk 发表于 2020-2-2 22:14:42 |只看作者 |坛友微信交流群
thanks fro sharing

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 18:24