最近在进行数据匹配练习,数据量很大,大约有2000,000个样本,发现如下问题:
第一,用相同的程序,其每次运行的结果存在差异,差异在16-2000个数据不等。即运行结束后,我用一个指令来删除一些不符合条件的样本;运行完全相同的代码,其删除量为16-2000年数据不等。原因何在?其不能保证完全可复制性。
第二,将命令从原始数据出发,即清除之前做过的所有过程数据,每次也不能得到完全一致的结果。原因何在?是不是计算机也会存在内存的误差?
|
楼主: peyzf
|
1333
1
[Stata高级班] 运行结果的不完全可重复性 |
|
大师 59%
-
|
| ||
|
|
加好友,备注jltj京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明


