人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析与数据挖掘 › 训练模型时如何避免过度拟合，怎样评估模型的准确性

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: 8810

2417 1

[数据挖掘理论与案例] 训练模型时如何避免过度拟合，怎样评估模型的准确性 [推广有奖]

0关注
0粉丝

小学生

还不是VIP/贵宾

威望: 0 级
论坛币: 15 个
通用积分: 1.0000
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 90 点
帖子: 2
精华: 0
在线时间: 2 小时
注册时间: 2016-12-27
最后登录: 2017-3-6

楼主

8810 发表于 2017-3-1 09:59:22 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

数据挖掘过程中，在训练模型时，切记一个词叫做过度拟合，过度拟合就是说你的模型过度的提取了这份样本数据的特征，将此模型进行应用的时候便会发现，准确性并不高。
一个与样本拟合程度过高的模型，已经与实际脱离，失去了应用的价值过度拟合就是为了达到一致假设，而使假设变得过度严格。

从商业应用上看模型的准确定，就需要从数据和应用实际出发。尤其对于预测类的模型，数据的分布要有清晰的掌握。列明几点：
1.在商业应用中，不可能获取到全部因素，同时还有随机因素影响，在实际中，有100%的准确度基本是不可能的
2.如果出现100%准确度的模型，需要检查是不是错误的引入了和预测变量相关的变量，这种变量对于未来本身就是不确定的。这种情况出现，一来本身就是错误，二来，这样的模型在实践中无法应用。
3.模型的准确性与样本数据结果也有关系，例如A类样本占有90%，B类样本占比10%，此时构建模型预测一个样本属于A还是B，即便模型将样本全部判定为A，模型的准确性还可达到90%，对于实践毫无益处。
4.针对第三点如何处理样本失衡问题。两种方式，一般来讲比较普遍的方式是做样本失衡的负抽样或正抽样处理（尽可能不破坏真实的比例，偏离整体越大，得到模型虽然训练的准确度很不错，但是容易过拟合）；另外可以采用少样本重复（把样本的特征加强了，重复多次，强调样本特征）

注意一点：
1.使用SmartMining构建模型时，可以使用评估节点查看模型预测的准确性，还可以查看详细的模型评估。
2.可以使用样本抽样，通过对比不用样本的模型准确性，以检测模型是否稳定。

数据挖掘软件.rar (261 Bytes, 需要: 5 个论坛币)

（转发注明出处）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：过度拟合模型评估样本准确度模型

[数据挖掘理论与案例] 训练模型时如何避免过度拟合，怎样评估模型的准确性 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[数据挖掘理论与案例] 训练模型时如何避免过度拟合，怎样评估模型的准确性 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群