大数据时代强调样本就是总体,利用所有的数据来进行预测,强调相关关系。但是如果在分析数据的时候,比如说A变量对B有影响,B变量对C变量有影响,而A变量也对C变量有直接的影响,那么我们利用A、B变量的所有数据去分析C变量的时候,会不会造成数据的重复利用?而且大数据时代强调尽可能多用与变量有关的所有数据,这是不是会造成更多的数据重复利用?因为少量的变量还可以说把重复部分剔除,但是在大数据环境下似乎没有办法做到。最近在看大数据,可是脑子里一直存在这个问题,希望高人指点!谢谢!
楼主: 『‖佳‖』
|
1494
4
[学术与投稿] 关于大数据时代有些疑问 |
讲师 5%
-
|
| ||
| ||
| ||
| ||
人在尘世间,心在三界外;若无纷繁事,何羡天上仙。
|
||
京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明 免责及隐私声明