|
,d,类条件密度由其乘积简单给出。2.3.1 NB决策算法在类条件独立假设下,j类条件密度为fj(x)=dYν=1fj,ν(xν)。(10) 对数似然比(5)可以计算为lj,l(x)=logπjfj(x)πlfl(x)!=对数πjπl+dXν=1对数fj,ν(xν)- 对数fl,ν(xν, (11) 通过将Lij(x)设置为0,再次获得决策边界。因此,Naive Bayes的判别函数是dj(x)=logπj+dXν=1log fj,ν(xν),(12),Naive Bayes的分类,一旦校准或训练,再次由映射规则(7)定义。还有一个问题是如何选择单变量密度fj,ν(xν)。有两种基本方法:1。参数规格:可以简单地为每个fj、ν指定一个单变量分布的参数族,并从训练样本中估计参数。注意,NB与正常fj,ν减少到具有对角方差协方差矩阵vj的QDA的特例。2、非参数规格:或者,可以对Ffj,ν使用非参数估值器,如核密度估值器(KDE)。我们记得,如果{x,x,…,xn}是概率密度为f的实值随机变量x的样本,那么f的Parzen核密度估计量由bf(x)=nbnXi=1K定义x个- xib公司, (13) 其中,核K是R上的非负函数,其积分为1,平均值为0,b>0称为带宽参数。核密度估计器代表了一种平滑样本数据的方法。b的选择是至关重要的:太小的a b可能会导致过度变化,从而试图过于接近数据,而太大的a b将“过度平滑”,并忽略样本中存在的底层结构。
|