请选择 进入手机版 | 继续访问电脑版
楼主: ZZ1119
14258 9

[其他] 回归时样本过少怎样通过数据生成的方法扩大样本量? [推广有奖]

  • 0关注
  • 8粉丝

银座原木顶

讲师

19%

还不是VIP/贵宾

-

威望
0
论坛币
394 个
通用积分
16.4513
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
5475 点
帖子
309
精华
0
在线时间
209 小时
注册时间
2018-7-1
最后登录
2023-4-10

ZZ1119 发表于 2019-10-18 15:57:18 |显示全部楼层 |坛友微信交流群
10论坛币
要跑一个回归,样本有点少,做出来可能性质不好,不知对于这种情况能否通过数据生成的方式扩大样本量?具体该如何处理呢?请各位高人指点下~~~

最佳答案

ggsimiDo 查看完整内容

不要想的太片面,所谓smote算法就是基于KNN算法对原有样本进行随机衍生,所以你可以直接对原样本进行smote算法从而衍生数据,唯一的问题是如果你的数据样本分布与实际样本分布(无法知晓)的偏差过大,那么衍生数据后的数据样本的回归结果可能误差较大
关键词:数据生成 样本量 大样本 高人指点 可能性
ggsimiDo 发表于 2019-10-18 15:57:19 |显示全部楼层 |坛友微信交流群
不要想的太片面,所谓smote算法就是基于KNN算法对原有样本进行随机衍生,所以你可以直接对原样本进行smote算法从而衍生数据,唯一的问题是如果你的数据样本分布与实际样本分布(无法知晓)的偏差过大,那么衍生数据后的数据样本的回归结果可能误差较大
已有 1 人评分论坛币 收起 理由
giresse + 20 精彩帖子

总评分: 论坛币 + 20   查看全部评分

使用道具

袖手尘嚣 在职认证  学生认证  发表于 2019-10-19 23:26:49 |显示全部楼层 |坛友微信交流群
KNN可以做回归的,具体的思路就是取k个点的均值作为新的样本添加到数据集中。

使用道具

ggsimiDo 发表于 2019-10-21 09:11:30 |显示全部楼层 |坛友微信交流群
使用SMOTE算法,可以进行扩大样本数据,python有带有SMOTE算法的包可以调用,你也可以自己手动写。这个链接可以参考 https://blog.csdn.net/niutingbaby/article/details/96104814

使用道具

ZZ1119 发表于 2019-10-21 17:38:40 |显示全部楼层 |坛友微信交流群
ggsimiDo 发表于 2019-10-21 09:11
使用SMOTE算法,可以进行扩大样本数据,python有带有SMOTE算法的包可以调用,你也可以自己手动写。这个链接 ...
SMOTE算法是不是解决数据不平衡问题的惯常方法呢?除此之外还有没有其他常用的方法?做研究的时候是否可以直接用SMOTE来做,还是需要与其他样本扩充方法进行比较?

使用道具

ZZ1119 发表于 2019-10-21 17:39:54 |显示全部楼层 |坛友微信交流群
袖手尘嚣 发表于 2019-10-19 23:26
KNN可以做回归的,具体的思路就是取k个点的均值作为新的样本添加到数据集中。
那在遇到这种问题时,我们可以直接使用KNN方法吗?是否还有其他比较常用的数据扩充方法,是否还需要在不同方法之间作一个权衡和选择?

使用道具

ZZ1119 发表于 2019-10-23 16:01:30 |显示全部楼层 |坛友微信交流群
ggsimiDo 发表于 2019-10-22 08:54
不要想的太片面,所谓smote算法就是基于KNN算法对原有样本进行随机衍生,所以你可以直接对原样本进行smote算 ...
那如果我用来做衍生的样本就是要考察的全部样本(而不是全部样本中的一部分),是不是对回归结果不会有太大影响?因为衍生的数据与原有数据的分布一致。

使用道具

ggsimiDo 发表于 2019-10-24 16:54:32 |显示全部楼层 |坛友微信交流群
如果真的是你全部样本,那么就不会出太大问题了,关键是你的全部样本的是否具有有效性。

使用道具

ZZ1119 发表于 2019-10-25 16:26:07 |显示全部楼层 |坛友微信交流群
ggsimiDo 发表于 2019-10-24 16:54
如果真的是你全部样本,那么就不会出太大问题了,关键是你的全部样本的是否具有有效性。
嗯嗯明白了,谢谢哈!

使用道具

ccs0531 发表于 2021-9-6 21:42:47 |显示全部楼层 |坛友微信交流群
ZZ1119 发表于 2019-10-25 16:26
嗯嗯明白了,谢谢哈!
请问你的问题是否得到解决?是按照上文网友的建议做的吗?
成果是否发表?
想参考学习一下,目前也遇到了此类问题。
谢谢!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 16:54