楼主: lbwnb666
507 5

[问答] 关于分类的一个小问题 [推广有奖]

  • 0关注
  • 0粉丝

高中生

25%

还不是VIP/贵宾

-

威望
0
论坛币
20 个
通用积分
0.5745
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1610 点
帖子
14
精华
0
在线时间
29 小时
注册时间
2021-3-8
最后登录
2024-2-3

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
求助,就是我在做分类时,响应变量是二分类变量。共73条数据,一类有55条(A),另一类为18条(B),我做建模预测时,总是会将B类误判为A类。我觉得原因是B类的数据显著少于A类,所以会产生预测准确率较差的结果,请问有什么办法提高预测准确率吗?还是说我数据量太少了?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:小问题 二分类变量 分类变量 准确率 二分类

回帖推荐

llb_321 发表于5楼  查看完整内容

大概的原因: 1、A、B两类样本数都小,尤其是B类,样本容量小,意味着单个样本的某个变量的极值对结果产生很大影响; 2、变量选择不合理,变量之间的响应关系不可靠,控制变量之间存在共线性,变量缺失; 3、分类算法不合适。如果是变量少且变量相关性较低的情况,可以试试朴素贝叶斯分类,如果变量很多,但样本少,可试试随机森林。 可以先试试不同分类方法,比较一下结果,如果都不理想,再想办法扩大数据量,可能的话可以 ...
沙发
橙红的果士 学生认证  发表于 2022-9-21 09:10:19 |只看作者 |坛友微信交流群
这东西很难说啊
如果你是实证分析,那你在模拟的时候按照实证分析的数据去拟合模拟数据了吗?效果是一样的嘛?
使用了Cross Validation嘛?有对照的方法吗?统一的评价指标是什么呢?

使用道具

藤椅
abelus 发表于 2022-9-21 09:12:47 |只看作者 |坛友微信交流群
看有啥统计检验方法
如果用精确检验,或者贝叶斯啥的,LZ担心的问题可以相当大程度的消除

使用道具

板凳
lbwnb666 发表于 2022-9-30 22:05:03 |只看作者 |坛友微信交流群
橙红的果士 发表于 2022-9-21 09:10
这东西很难说啊
如果你是实证分析,那你在模拟的时候按照实证分析的数据去拟合模拟数据了吗?效果是一样的 ...
我是实证分析啊,用的实际数据,没有做数值模拟。
交叉验证也做过了,效果依然不是很好,很烦

使用道具

报纸
llb_321 在职认证  发表于 2022-10-1 20:36:23 |只看作者 |坛友微信交流群
大概的原因:
1、A、B两类样本数都小,尤其是B类,样本容量小,意味着单个样本的某个变量的极值对结果产生很大影响;
2、变量选择不合理,变量之间的响应关系不可靠,控制变量之间存在共线性,变量缺失;
3、分类算法不合适。如果是变量少且变量相关性较低的情况,可以试试朴素贝叶斯分类,如果变量很多,但样本少,可试试随机森林。

可以先试试不同分类方法,比较一下结果,如果都不理想,再想办法扩大数据量,可能的话可以尽量增加一些变量。
另外,没有算法是百分百准确的,如果最终的模型太准确,反而会过拟合。

使用道具

地板
lbwnb666 发表于 2022-10-10 16:21:40 |只看作者 |坛友微信交流群
llb_321 发表于 2022-10-1 20:36
大概的原因:
1、A、B两类样本数都小,尤其是B类,样本容量小,意味着单个样本的某个变量的极值对结果产生 ...
谢谢您的回复,我也对产生的原因做了一些分析。我的变量是18维,而且存在严重的多重共线性。考虑了6钟常用的机器学习方法,发现效果都不是很好。
扩大样本量的话,这个没有办法实现,应为我的数据是实际数据。
最后我在特征提取上采用了新的方法,结果比之前的有明显改善,可能就是因为特征提取上存在问题吧
现在问题已经解决了,再次谢谢您啊

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-17 23:55