请教机器学习问题：分类算法能识别出未知类的样本吗？ [推广有奖]

0关注
0粉丝

学前班

40%

还不是VIP/贵宾

威望: 0 级
论坛币: 10 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 20 点
帖子: 1
精华: 0
在线时间: 0 小时
注册时间: 2012-11-11
最后登录: 2014-5-20

楼主

zhangxia_zz 发表于 2014-5-20 21:40:01 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

最近一直受一个问题困扰，咨询一下论坛内的大家，请多多指教！问题是机器学习方面的。
如果用一组类别已知的样本，其类别可能是1，...，m，训练一个分类器，然后用其识别一组样本。待识别样本中如果出现了一个不在1,...，m类中的样本，分类器能发现吗？
直观的感觉是，不能发现，因为分类器一旦训练好了，对于一个新的、待识别的样本，一定分到自己已知的类别中的一个。但是，又觉得，如果对分类器的分类过程稍加修改，就有可能发现新类别。例如，对基于朴素贝叶斯的分类器，分类过程是计算后验概率，把待识别样分到后验概率最大的一类，这里可以加上一个阈值，如果后验概率低于它，那么，将判为新类别，而不是后验概率最大的一类。
盼高人指点，这种问题有什么已有的研究，给指个思路、提供点参考文献题目也行，不胜感激！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：分类算法机器学习朴素贝叶斯后验概率参考文献不胜感激参考文献最大的样本

相关帖子

沙发

superlaw 发表于 2014-5-21 08:47:09

高人来了啊，呵呵呵，要给我的学术水平，热心指数，信用等级加分哦。
（1）类别问题
这是一个categorization的问题。什么叫组training？就是你已知他的类别，通过traning来获取样本的特征空间的分布。当你的training确定好之后，你的类别也就确定好了，不可以随意改动。
given一个test data，理论上来说，应该是不知道test data的类别，需要用你的classifer去做预测。但是有时为了评价分类器的好坏，所以也会认为的标注test data的类别，并与classifier预测的结果进行对比，来评价分类器的效果。

如果你明知你的test data里有一个不属于分类器中的某一个类别，你用分类器去给他分类有什么意义呢？比如你有一个中日韩语言的分类器，你用一个英文的test data，虽然最终他会被分到中日韩某一个类别里。但你的test是没有任何意义的？既不能评价分类器的好坏，也不能评价新类别的可分度。

（2）未知的类
当然，还是用上面的类别。
如果你的test的样本里的确包含一些英语，如果把英语标记成中日韩，则会导致你分类器评价有偏差，甚至错误。怎么办了？于是你可以用一个阈值，当某个样本属于中日韩的概率都极低的时候，你可以说，这是一个位置的样本。
这样你就不会把这个样本计入后面的分类器评价啦。

希望对你有帮助。