楼主: 502129
6742 10

[数据挖掘理论与案例] 请教决策树样本选择的问题 [推广有奖]

  • 2关注
  • 2粉丝

博士生

45%

还不是VIP/贵宾

-

威望
0
论坛币
1 个
通用积分
0
学术水平
3 点
热心指数
4 点
信用等级
1 点
经验
4726 点
帖子
305
精华
0
在线时间
245 小时
注册时间
2007-12-13
最后登录
2018-4-27

楼主
502129 在职认证  发表于 2014-8-20 14:17:28 |只看作者 |坛友微信交流群|倒序 |AI写论文
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
在实际数据挖掘案例中遇到一个难题。
背景:假设一天交易的订单有1000万,其中有999.9万个是正常样本,剩下的是作弊样本,想建立决策树发现作弊样本的特点,请问,在建模数据的时候正常样本假如选5万,作弊样本应该选多少呢?如果直接按作弊样本的浓度选的话,只有几个,显然是不行的,如果全选的话,会使样本失衡。坏样本的识别可能会出问题。

问题:作弊样本选择多少个?模型建立之后如何应用到实践当中呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:样本选择 决策树 数据挖掘案例 数据挖掘 实际数据 样本

沙发
guo.bailing 发表于 2014-8-23 22:12:04 |只看作者 |坛友微信交流群
作弊样本占的比例本来就很少,可以全部选,不过要结合具体数据的特征来决定

使用道具

藤椅
kuangsir6 发表于 2014-8-26 22:01:50 |只看作者 |坛友微信交流群
使用平衡节点,使两者的数据个数大体一样。

使用道具

板凳
502129 在职认证  发表于 2014-8-27 10:50:51 |只看作者 |坛友微信交流群
kuangsir6 发表于 2014-8-26 22:01
使用平衡节点,使两者的数据个数大体一样。
非常感谢,具体如何操作,能说的具体些吗

使用道具

报纸
kuangsir6 发表于 2014-8-27 11:00:56 |只看作者 |坛友微信交流群
502129 发表于 2014-8-27 10:50
非常感谢,具体如何操作,能说的具体些吗
参看平衡节点展开图,因子就是样本放大的倍数。
ddd.PNG

使用道具

地板
kuangsir6 发表于 2014-8-27 11:05:18 |只看作者 |坛友微信交流群
502129 发表于 2014-8-27 10:50
非常感谢,具体如何操作,能说的具体些吗
下图是性别的平衡节点展开图,SEX=1代表男性;因子为6,代表男性数量乘以6.
eeee.PNG

使用道具

7
502129 在职认证  发表于 2014-8-27 11:17:03 |只看作者 |坛友微信交流群
kuangsir6 发表于 2014-8-27 11:05
下图是性别的平衡节点展开图,SEX=1代表男性;因子为6,代表男性数量乘以6.
厉害啊,我还是有点困惑的是:我们是要建立决策树,然后再应用到实际当中(准备预测哪些是坏样本),实际本来就不平衡,如果我们人为调整之后,小样本变成了大样本,特征是不是被放大了,那结果还是理想的吗?或者这样处理有什么科学依据吗

使用道具

8
kuangsir6 发表于 2014-8-27 11:19:42 |只看作者 |坛友微信交流群
502129 发表于 2014-8-27 11:17
厉害啊,我还是有点困惑的是:我们是要建立决策树,然后再应用到实际当中(准备预测哪些是坏样本),实际 ...
有的,不过背景太多,一言难尽。

使用道具

9
502129 在职认证  发表于 2014-8-27 11:41:12 |只看作者 |坛友微信交流群
kuangsir6 发表于 2014-8-27 11:19
有的,不过背景太多,一言难尽。
可以加qq或者微信聊下吗?564619688,望不吝赐教。

使用道具

10
枫爱叶 发表于 2015-9-18 13:39:53 |只看作者 |坛友微信交流群
平衡后的样本做出模型效果不错,但应用到原来全部样本,效果特别差,命中率才5%,该怎么处理呢?先谢过诸位了。。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-6 09:52