在实际数据挖掘案例中遇到一个难题。
背景:假设一天交易的订单有1000万,其中有999.9万个是正常样本,剩下的是作弊样本,想建立决策树发现作弊样本的特点,请问,在建模数据的时候正常样本假如选5万,作弊样本应该选多少呢?如果直接按作弊样本的浓度选的话,只有几个,显然是不行的,如果全选的话,会使样本失衡。坏样本的识别可能会出问题。
问题:作弊样本选择多少个?模型建立之后如何应用到实践当中呢?
楼主: 502129
|
6742
10
[数据挖掘理论与案例] 请教决策树样本选择的问题 |
博士生 45%
-
|
| ||
| ||
京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明 免责及隐私声明