5686 13

[统计软件] 重复样本对模型的预测有何影响? [推广有奖]

11
露露的家园2012 发表于 2018-11-29 10:24:17
雾锁山城 发表于 2018-11-29 09:19
对于实际应用,你应该确定什么是确定的重复,比如
商家ID    产品A   产品B  产品C
1             10   ...
这个对我的启发很大,那比如数据是与时间相关的,比如机器生产制造:
data:
time                            var1      var2       var3      
2018-11-29 10:20:01     51        52          53
2018-11-29 10:20:02     51        52           53
2018-11-29 10:20:03     52        53          53
2018-11-29 10:20:04     51        52           53

这些数据是不同时间产生的,那这些数据有不同的时间标签,那是否可以认为是重复性数据?

12
jgchen1966 发表于 2018-11-29 11:17:16
露露的家园2012 发表于 2018-11-29 10:24
这个对我的启发很大,那比如数据是与时间相关的,比如机器生产制造:
data:
time                     ...
我觉得,我已说得很清楚了!!  
对于,特定问题,特定数据集,只有理解数据生成机理的使用者,才能悟得明白,但不一定说得明白。
因为我们不知道P(X,Y) 。。。  如果知道了P(X,Y),则一切数据分析,也就没有必要了。

13
jameschin007 发表于 2018-11-29 13:44:35
露露的家园2012 发表于 2018-11-29 10:24
这个对我的启发很大,那比如数据是与时间相关的,比如机器生产制造:
data:
time                     ...
显然不是重复数据啊。
工业应用里,很多数据有周期性。所以这种数据很常见。

这种数据显然是时间序列数据, 你用gbdt做预测不合适吧。

14
雾锁山城 在职认证  发表于 2018-11-30 09:02:32
露露的家园2012 发表于 2018-11-29 10:24
这个对我的启发很大,那比如数据是与时间相关的,比如机器生产制造:
data:
time                     ...
这个不是重复数据。这个数据采样周期是一秒,所以个人觉得这个数据不能直接用,应该是需要加工,比如问问业务的意见,如取30秒的平均等。这样子就会减少“重复”;只是个人这么觉得哈,具体应基于实际的业务应用。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-26 17:31