我有一个疑问,我现在手头有2万条记录(假如这些记录是表示人已死亡),用这些数据来预测700万数据(人暂未死亡)的结果,想问可行吗?
在EM中选择2万死亡数据+6万未死亡数据组成样本集,去预测剩下的694万人多少会发生死亡。。我想问,这种数据两之间的悬殊差距会不会影响预测结果?我预测的未死亡到未死亡的测试集正确率可以达到99%,但是预测的死亡到死亡的测试集正确率才到达76%。
当我选择2万死亡数据+2万未死亡数据进行预测时,预测的死亡到死亡的测试集正确率会提高,但是这样的一个样本集数据组成明显与事实不符。
请教这样做出的预测是不是可信,还有什么更好的预测办法,谢谢



雷达卡





说得对。但是这是工作啊
京公网安备 11010802022788号







