楼主: zhangxia_zz
3468 1

请教机器学习问题:分类算法能识别出未知类的样本吗? [推广有奖]

  • 0关注
  • 0粉丝

学前班

40%

还不是VIP/贵宾

-

威望
0
论坛币
10 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
20 点
帖子
1
精华
0
在线时间
0 小时
注册时间
2012-11-11
最后登录
2014-5-20

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
最近一直受一个问题困扰,咨询一下论坛内的大家,请多多指教!问题是机器学习方面的。
如果用一组类别已知的样本,其类别可能是1,...,m,训练一个分类器,然后用其识别一组样本。待识别样本中如果出现了一个不在1,...,m类中的样本,分类器能发现吗?
直观的感觉是,不能发现,因为分类器一旦训练好了,对于一个新的、待识别的样本,一定分到自己已知的类别中的一个。但是,又觉得,如果对分类器的分类过程稍加修改,就有可能发现新类别。例如,对基于朴素贝叶斯的分类器,分类过程是计算后验概率,把待识别样分到后验概率最大的一类,这里可以加上一个阈值,如果后验概率低于它,那么,将判为新类别,而不是后验概率最大的一类。
盼高人指点,这种问题有什么已有的研究,给指个思路、提供点参考文献题目也行,不胜感激!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:分类算法 机器学习 朴素贝叶斯 后验概率 参考文献 不胜感激 参考文献 最大的 样本

沙发
superlaw 发表于 2014-5-21 08:47:09 |只看作者 |坛友微信交流群
高人来了啊,呵呵呵,要给我的学术水平,热心指数,信用等级加分哦。
(1)类别问题
这是一个categorization的问题。什么叫组training?就是你已知他的类别,通过traning来获取样本的特征空间的分布。当你的training确定好之后,你的类别也就确定好了,不可以随意改动。
given一个test data,理论上来说,应该是不知道test data的类别,需要用你的classifer去做预测。但是有时为了评价分类器的好坏,所以也会认为的标注test data的类别,并与classifier预测的结果进行对比,来评价分类器的效果。

如果你明知你的test data里有一个不属于分类器中的某一个类别,你用分类器去给他分类有什么意义呢?比如你有一个中日韩语言的分类器,你用一个英文的test data,虽然最终他会被分到中日韩某一个类别里。但你的test是没有任何意义的?既不能评价分类器的好坏,也不能评价新类别的可分度。

(2)未知的类
当然,还是用上面的类别。
如果你的test的样本里的确包含一些英语,如果把英语标记成中日韩,则会导致你分类器评价有偏差,甚至错误。怎么办了?于是你可以用一个阈值,当某个样本属于中日韩的概率都极低的时候,你可以说,这是一个位置的样本。
这样你就不会把这个样本计入后面的分类器评价啦。

希望对你有帮助。
已有 1 人评分论坛币 热心指数 收起 理由
admin_kefu + 50 + 3 热心帮助其他会员

总评分: 论坛币 + 50  热心指数 + 3   查看全部评分

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 21:28