楼主: jww-
4829 8

[问答] smote过采样 [推广有奖]

  • 0关注
  • 0粉丝

高中生

22%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
203 点
帖子
15
精华
0
在线时间
27 小时
注册时间
2021-7-30
最后登录
2023-7-25

楼主
jww- 发表于 2022-3-25 09:05:43 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
请问大家,smote过采样算法在实际应用中,做数据分析(比如logistic回归)是应该用合成数据,还是用原数据呢?过采样之后的合成数据能够用来做哪些操作呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Mote SMO logistic回归 logistic logisti

沙发
liujiajin 发表于 2022-3-26 19:03:00
当然是用SMOTE之后的数据,本身该抽样方法就是解决样本量不平衡造成的过学习

藤椅
jww- 发表于 2022-3-26 22:23:43
liujiajin 发表于 2022-3-26 19:03
当然是用SMOTE之后的数据,本身该抽样方法就是解决样本量不平衡造成的过学习
那请问,用smote拟合出的模型在验证集检验的时候,验证集应该用原始数据是吗?

板凳
liujiajin 发表于 2022-3-27 19:22:07
jww- 发表于 2022-3-26 22:23
那请问,用smote拟合出的模型在验证集检验的时候,验证集应该用原始数据是吗?
哦我可能懂你的意思了
1、原数据划分为 训练集+测试集,这种情况你直接用训练集SMOTE,测试集原始数据就ok了。
2、原数据无划分,你直接用原来的数据进行测试,那肯定是SMOTE数据进行训练,原始数据进行测试。

报纸
liujiajin 发表于 2022-3-27 19:23:08
测试集要尽可能使用可以直接取得的数据,SMOTE后的测试集就算跑的通也没有现实意义。

地板
jww- 发表于 2022-3-29 21:32:22
liujiajin 发表于 2022-3-27 19:22
哦我可能懂你的意思了
1、原数据划分为 训练集+测试集,这种情况你直接用训练集SMOTE,测试集原始数据就 ...
太棒啦,谢谢你!

7
huangyuj 学生认证  发表于 2022-4-21 09:04:31
liujiajin 发表于 2022-3-27 19:23
测试集要尽可能使用可以直接取得的数据,SMOTE后的测试集就算跑的通也没有现实意义。
你好,我想请问一下如果我用smote后生成的少数样本加上原来的少数样本还是少于多数样本(依旧不平衡),这是为什么呢?

8
huangyuj 学生认证  发表于 2022-4-21 09:05:17
你好,我想请问一下如果我用smote后生成的少数样本加上原来的少数样本还是少于多数样本(依旧不平衡),这是为什么呢?

9
liujiajin 发表于 2022-4-21 18:14:53
huangyuj 发表于 2022-4-21 09:04
你好,我想请问一下如果我用smote后生成的少数样本加上原来的少数样本还是少于多数样本(依旧不平衡),这 ...
你用的是什么软件?
我用的是R的DMwR包
SMOTE(form, data, perc.over, k, perc.under learner = NULL, ...)
可以通过调整perc.over和under来调节样本数量

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-22 06:34