Bayes法是一种在已知先验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。
设训练样本集分为M类,记为C={c(1),…,c(i),…c(M)},每类的先验概率为P(c(i)),i=1,2,…,M。当样本集非常大时,可以认为 P(c(i))=c(i)类样本数/总样本数。对于一个待分样本X,其归于c(j)类的类条件概率是P(X/c(i)),则根据Bayes定理,可得到c(j)类的后验概率 P(c(i)/X):
P(c(i)/x)=P(x/c(i))·P(c(i))/P(x) -----------------(1)
若P(c(i)/X)=MaxjP(c(j)/X),i=1,…,M,j=1,…,M, -----------------(2)
则有x∈c(i) 。式(2)是最大后验概率判决准则,将式(1)代入式(2),则有:
若P(x/c(i))P(c(i))=Max_{j}[P(x/c(j))P(c(j))],i=1,2,…,M,j=1,2,…,M,则x∈c(i)
这就是常用到的Bayes分类判决准则。经过长期的研究,Bayes分类方法在理论上论证得比较充分,在应用上也是非常广泛的。Bayes方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们,就要求样本足够大。另外,Bayes法要求表达文本的主题词相互独立,这样的条件在实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。
(原帖出处 http://apps.hi.baidu.com/share/detail/7428796 略作修改)
欲知晓了解更多:数据挖掘现场班https://bbs.pinggu.org/thread-1409460-1-1.html


雷达卡



京公网安备 11010802022788号







