4475 9

少量数据预测大量数据会出现的问题 [推广有奖]

  • 1关注
  • 1粉丝

已卖:1份资源

本科生

89%

还不是VIP/贵宾

-

威望
0
论坛币
28 个
通用积分
4.7181
学术水平
1 点
热心指数
1 点
信用等级
1 点
经验
1277 点
帖子
74
精华
0
在线时间
99 小时
注册时间
2014-11-14
最后登录
2024-4-19

楼主
小台芒,好吃 发表于 2015-6-18 08:21:20 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
各位大牛好,
我有一个疑问,我现在手头有2万条记录(假如这些记录是表示人已死亡),用这些数据来预测700万数据(人暂未死亡)的结果,想问可行吗?

在EM中选择2万死亡数据+6万未死亡数据组成样本集,去预测剩下的694万人多少会发生死亡。。我想问,这种数据两之间的悬殊差距会不会影响预测结果?我预测的未死亡到未死亡的测试集正确率可以达到99%,但是预测的死亡到死亡的测试集正确率才到达76%。

当我选择2万死亡数据+2万未死亡数据进行预测时,预测的死亡到死亡的测试集正确率会提高,但是这样的一个样本集数据组成明显与事实不符。

请教这样做出的预测是不是可信,还有什么更好的预测办法,谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据预测 测试集 正确率 一个样 记录 样本 影响

沙发
夏目贵志 发表于 2015-6-18 08:38:43
统计上讲,只要这些数据都来自同一个总体,量大量小都不是问题(假定模型和参数估计足够准确)。
实际上说,很难说你的数据是不是来自同一个总体。你得说清楚你究竟在研究什么,都有哪些自变量,才能讨论。不然没啥可说的。举个极端的例子:如果你手头的两万条记录都是医院病死的。你用它预测700万不知道健康不健康的人会不会死。。。

另:我不用EM预测也知道你那700万人里有700万人都会死的

藤椅
小台芒,好吃 发表于 2015-6-18 13:14:29
夏目贵志 发表于 2015-6-18 08:38
统计上讲,只要这些数据都来自同一个总体,量大量小都不是问题(假定模型和参数估计足够准确)。
实际上说 ...
哈哈,其实不是预测死亡的。我的数据都来自同一个总体,是通过分析,拿出来一部分,预测另一部分。

板凳
夏目贵志 发表于 2015-6-18 20:49:07
小台芒,好吃 发表于 2015-6-18 13:14
哈哈,其实不是预测死亡的。我的数据都来自同一个总体,是通过分析,拿出来一部分,预测另一部分。
我知道。我的意思就是说你要是不说明具体是做什么,有些判断就很难做。因为我不能替你做各种假设。你是做default的吗?

报纸
小台芒,好吃 发表于 2015-6-19 08:24:40
我在做客户流失预警

地板
小台芒,好吃 发表于 2015-6-19 08:25:30
夏目贵志 发表于 2015-6-18 20:49
我知道。我的意思就是说你要是不说明具体是做什么,有些判断就很难做。因为我不能替你做各种假设。你是做 ...
我在做客户流失预警,用流失客户去预测未流失客户未来一段时间内流失的情况

7
夏目贵志 发表于 2015-6-19 09:41:59
小台芒,好吃 发表于 2015-6-19 08:25
我在做客户流失预警,用流失客户去预测未流失客户未来一段时间内流失的情况
我不知道你有什么数据,但是感觉这个不一定好做。你得明白为什么用户会流失。很多时候用户流失的原因你是无法预测的。如果我突然不去我一直爱去的米粉店了,而原因是我老婆学会怎么做好吃的米粉了。从米粉店的角度看,除非我主动说出原因,不然无论如何也是不可能从我过去的行为和表现,和我的个人信息(比如性别年龄等)当中找到原因的。

8
小台芒,好吃 发表于 2015-6-19 09:46:18
夏目贵志 发表于 2015-6-19 09:41
我不知道你有什么数据,但是感觉这个不一定好做。你得明白为什么用户会流失。很多时候用户流失的原因你是 ...
说得对。但是这是工作啊

9
yellopple 发表于 2015-6-19 12:48:24 来自手机
小台芒,好吃 发表于 2015-6-19 09:46
说得对。但是这是工作啊,只能硬着头皮做一下了。数据量少而不全,心塞…
1,2万死亡对应多少没死亡的
2,这个2万对应时间期间如何,期间新增多少,期初有多少
3,有没有可能根据季节或某些特定因素将时间分段,考察短期趋势和长期趋势
4,哪些因素导致新增量,新增量能否量化,无法量化的有无替代
5,根据这些因素考察新增流量在一年内退出的比例,在2年内退出的比例

10
小台芒,好吃 发表于 2015-6-19 13:03:19
yellopple 发表于 2015-6-19 12:48
1,2万死亡对应多少没死亡的
2,这个2万对应时间期间如何,期间新增多少,期初有多少
3,有没有可能根据季 ...
考虑确实全面,我这2万是从所有客户筛选出来的,时间比较长,十多年,期间肯定有进有出。你提到的第5条是我目前在做的。我也想到时间周期太长似乎没什么意义,考虑短期会更好一些。

非常感谢

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-25 10:25