5684 13

[统计软件] 重复样本对模型的预测有何影响? [推广有奖]

  • 8关注
  • 1粉丝

博士生

78%

还不是VIP/贵宾

-

威望
0
论坛币
436 个
通用积分
0.0602
学术水平
5 点
热心指数
5 点
信用等级
0 点
经验
4549 点
帖子
164
精华
0
在线时间
407 小时
注册时间
2015-11-3
最后登录
2020-2-8

楼主
露露的家园2012 发表于 2018-11-26 14:41:03 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
大家好:
          有一个问题,想和大家一起讨论一下:重复样本对模型的预测有何影响?重复数据会影响数据的分布,那么对神经网络类的预测以及决策树类的预测分别存在什么样的影响?欢迎大家讨论!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:重复数据 神经网络 影响数据 什么样 决策树

沙发
雾锁山城 在职认证  发表于 2018-11-27 08:52:36
有,影响还是很大的。比如回归中损失函数为 loss=sum[(y_true-y_pred)^2]。重复样本同样会对loss有影响,会使回归向重复样本方向拉。
已有 1 人评分经验 收起 理由
cheetahfly + 100 热心帮助其他会员

总评分: 经验 + 100   查看全部评分

藤椅
露露的家园2012 发表于 2018-11-28 10:03:40
雾锁山城 发表于 2018-11-27 08:52
有,影响还是很大的。比如回归中损失函数为 loss=sum[(y_true-y_pred)^2]。重复样本同样会对loss有影响,会 ...
果然,通过我最近做的一个模型,原始数据100万(包括重复),去重之后23万,先后建立两个模型(采用GBDT算法建立的),在两个预测模型预测过程中发现,重复数据预测模型预测的结果比较平稳,偏向重复数据的分布;而去重之后的模型预测的结果起伏较大。那到底哪种情况更加反映实际情况呢?
已有 1 人评分经验 收起 理由
cheetahfly + 100 观点有启发

总评分: 经验 + 100   查看全部评分

板凳
jgchen1966 发表于 2018-11-28 10:55:36
    拟合统计学习模型时,本是要学习一个概率模型P(X,Y) 。但是,P(X,Y)是不知的,我们只有一个由N个观察组成数据样本(xi,yi) (i=1,2,...N),假设这个数据样本是从P(X,Y)是随机抽取的,同时也假设未来测试样本也是从P(X,Y)中随机抽取的。这是统计学习(或机器学习的基本假设)。。
    既然从一个概率模型P(X,Y)中随机抽取, 这个样本,本身是一个随机数,其中一些观察重复,也是很正常的。这也是bootstrap的工作原理。
     可参考一些 BOOTSTRAP书,来理解重复观察的意义。。
     从信息角度来说,既然一个数据即包含了信息,重复实是没必要了。。重复,仅仅代表,在此观察点,数据分布密度更高些。在学习中,权重也就高些。。
已有 1 人评分经验 收起 理由
cheetahfly + 100 热心帮助其他会员

总评分: 经验 + 100   查看全部评分

报纸
jgchen1966 发表于 2018-11-28 12:42:08
jgchen1966 发表于 2018-11-28 10:55
拟合统计学习模型时,本是要学习一个概率模型P(X,Y) 。但是,P(X,Y)是不知的,我们只有一个由N个观察组 ...
     由上可知,重复来源于“随机抽取”过程,对统计学习过程是没有影响的。但是,人为地对原样本中某此特定的观察点进行重复,就改变了原样本代表的潜在概率模型P(X,Y),也就会影响后续的统计结果。

地板
jinkelazzz 发表于 2018-11-28 16:08:44
其实你把重复的量当成样本权重就好了 也就是说 样本并不是均匀分布的

7
凌1975 发表于 2018-11-28 16:22:21
预测偏移

8
雾锁山城 在职认证  发表于 2018-11-29 09:19:46
露露的家园2012 发表于 2018-11-28 10:03
果然,通过我最近做的一个模型,原始数据100万(包括重复),去重之后23万,先后建立两个模型(采用GBDT算 ...
对于实际应用,你应该确定什么是确定的重复,比如
商家ID    产品A   产品B  产品C
1             10        8        12
2             10        8        12
1             10        8        12
其中第一条数据和第二条数据虽然他们在产品A、B、C的销量一样,但是他们不是重复数据。
第一条和第三条才是重复数据。
最好能从数据的产生过程判断数据是否是真的重复。

9
雾锁山城 在职认证  发表于 2018-11-29 09:19:49
露露的家园2012 发表于 2018-11-28 10:03
果然,通过我最近做的一个模型,原始数据100万(包括重复),去重之后23万,先后建立两个模型(采用GBDT算 ...
对于实际应用,你应该确定什么是确定的重复,比如
商家ID    产品A   产品B  产品C
1             10        8        12
2             10        8        12
1             10        8        12
其中第一条数据和第二条数据虽然他们在产品A、B、C的销量一样,但是他们不是重复数据。
第一条和第三条才是重复数据。
最好能从数据的产生过程判断数据是否是真的重复。

10
雾锁山城 在职认证  发表于 2018-11-29 09:19:52
露露的家园2012 发表于 2018-11-28 10:03
果然,通过我最近做的一个模型,原始数据100万(包括重复),去重之后23万,先后建立两个模型(采用GBDT算 ...
对于实际应用,你应该确定什么是确定的重复,比如
商家ID    产品A   产品B  产品C
1             10        8        12
2             10        8        12
1             10        8        12
其中第一条数据和第二条数据虽然他们在产品A、B、C的销量一样,但是他们不是重复数据。
第一条和第三条才是重复数据。
最好能从数据的产生过程判断数据是否是真的重复。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-26 15:19