楼主: 翼羽路
6801 7

[统计软件与数据分析] 数据挖掘训练集与测试集采用不同规则分区的研究 [推广有奖]

  • 0关注
  • 0粉丝

本科生

97%

还不是VIP/贵宾

-

威望
0
论坛币
2916 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1095 点
帖子
97
精华
0
在线时间
55 小时
注册时间
2011-6-28
最后登录
2019-7-26

10论坛币

大家好,在做一个数据挖掘的研究,有3个月数据:8月份(从8.7开始),9月份(一整个月),10月份(从10.1-10.25)。
采用了两种分区方法:1:三个月数据作为整体,从中随机抽取60%作为训练集,剩下作为测试集。
2:8月份和9月份作为训练集,10月份作为测试集。

上述两组分区方法的训练集准确率都是97%左右,但是测试集结果相差很大。采取第一种办法,测试集准确率有92%。第二种分区方法只有77%左右。

以上为决策树C5.0算法,也尝试用了神经网络,贝叶斯网络,SVM,基本都是第二种分区方法的测试集准确率下降得很严重,想请教一下大家这主要是什么原因造成?

关键词:数据挖掘 训练集 测试集 是什么原因 贝叶斯网络 准确率 网络 左右
公众号:wetalkdata,走在数据科
沙发
guo.bailing 发表于 2014-8-5 21:32:03 |只看作者 |坛友微信交流群
季节效应影响,第一个方法更科学

使用道具

藤椅
翼羽路 发表于 2014-8-5 21:39:25 |只看作者 |坛友微信交流群
guo.bailing 发表于 2014-8-5 21:32
季节效应影响,第一个方法更科学
第一种方法从挖掘的角度我觉得缺失可以充分挖点。但是在实际的应用当中,一般我们会是把历史数据作为训练集,新的数据验证使用,所以我其实更希望是使用第二种方法。
我也有考虑过季节效应的因素,但是这个研究是针对普通生产企业的工业用水排污研究,三个月份是连在一起的,我自己会比较怀疑这个不同月份的行为模式的差距会这么大吗?

使用道具

板凳
602dxz 发表于 2014-8-5 21:39:27 |只看作者 |坛友微信交流群
这个结果很正常啊!第一种方法其实就是做了个同源数据再拟合工作,所以准确率高,基于整体的随机抽样数据也可以看成已经包含了3个月的信息,你拿剩下40%的数据去检验肯定准确率极高。不过检验模型一般都不会这么做没有意义。第二种方法是正解,所以预测准确率也低。

使用道具

报纸
翼羽路 发表于 2014-8-5 21:41:15 |只看作者 |坛友微信交流群
602dxz 发表于 2014-8-5 21:39
这个结果很正常啊!第一种方法其实就是做了个同源数据再拟合工作,所以准确率高,基于整体的随机抽样数据也 ...
按照你的说法,就是认为不同月份的数据间他们的行为模式是不一致的?

使用道具

地板
602dxz 发表于 2014-8-5 21:45:39 |只看作者 |坛友微信交流群
翼羽路 发表于 2014-8-5 21:41
按照你的说法,就是认为不同月份的数据间他们的行为模式是不一致的?
时间序列数据的话,本来就是动态的,无时无刻都在变化,你基于历史数据搞出来的模型不可能都捕捉住。你第一种方法为什么准确率这么高就是因为你训练模型与检验都是用的一批同源数据,所以模型对于数据的捕捉(拟合)才这么好!

使用道具

7
翼羽路 发表于 2014-8-5 21:53:52 |只看作者 |坛友微信交流群
602dxz 发表于 2014-8-5 21:45
时间序列数据的话,本来就是动态的,无时无刻都在变化,你基于历史数据搞出来的模型不可能都捕捉住。你第 ...
我觉得这个和一般的时间序列数据有点不一样。这个例子是南宁某区域内所有企业的生产用水排放达标研究,数据单位是一个企业一个小时的排放数据。这也就是一个企业每一个一个月份每一天每一个小时的数据都是唯一。

另外我觉得排水标准其实和它的生产情况有关系,分类的依据更多是它的生产情况做出判别,几时是存在季节因素,也应该是先反映在生产要素的变动上,再传递到我的排放上。假如利用上生产状况做为输入因素的话,按照道理,不应该差这么大吧

使用道具

8
602dxz 发表于 2014-8-5 22:08:39 |只看作者 |坛友微信交流群
翼羽路 发表于 2014-8-5 21:53
我觉得这个和一般的时间序列数据有点不一样。这个例子是南宁某区域内所有企业的生产用水排放达标研究,数 ...
就利用第一种方法还是第二种方法建模以及检验这个问题,应该是第二种方法。至于用了第二种方法后预测率准确率低那可以考虑试试其他的建模方法,建议楼主可以试试傅里叶级数以及小波分析。对于周期波动规律化的数据,这两种方法效果极好,在数据拟合度以及短期预测能力上应该可以超越楼主用的那些方法,包括SARMA(季节性自回归移动平均),上述两种方法一般对于数据拟合到99%也不奇怪,所以可以最大化地捕捉住将数据惯性从而实现短期(对后一期到二期)预测高精度化。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-17 22:26