在实际数据挖掘案例中遇到一个难题。
背景:假设一天交易的订单有1000万,其中有999.9万个是正常样本,剩下的是作弊样本,想建立决策树发现作弊样本的特点,请问,在建模数据的时候正常样本假如选5万,作弊样本应该选多少呢?如果直接按作弊样本的浓度选的话,只有几个,显然是不行的,如果全选的话,会使样本失衡。坏样本的识别可能会出问题。
问题:作弊样本选择多少个?模型建立之后如何应用到实践当中呢?
|
楼主: 502129
|
7235
10
[数据挖掘理论与案例] 请教决策树样本选择的问题 |
|
博士生 45%
-
|
| ||
|
|
| ||
加好友,备注cda京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明


