|
在前一个例子的情况下,在某些情况下,只要维数p的增长速度不超过样本量n.8.2质心规则和k-近邻规则,则朴素贝叶斯分类器输出rmsFisher判别函数。如果质心规则到第k类的质心的距离小于到任何其他类的质心的距离,则质心规则将对象分类到第k类。该方法的优点如K=2所示。假设nand nare FIXED和p→ ∞ 在每个类别中,观察值为iid。对高维金融数据的一些统计问题的观察19两类可分别用Z=(Z,Z,…,Z1p)和Z=(Z,…,Z2p)表示。假设p→ ∞,pPpi=1var(Z1i)→ σ、 pPpi=1var(Z2i)→ τ、 σ/n>τ/nandpPpi=1[E(Z1i)- E(Z2i)]→ κ新的观察结果正确分类,概率收敛到1 asp→ ∞ ifκ≥σ/n-τ/n【15】。k-近邻规则通过训练数据中k个最近的数据点来确定新观测的clas。新的观察家被分配到最接近tog(X)=kXi:Xi的类别∈Nk(X)yi其中,Nk(X)是X.8.3支持向量机在贝叶斯分类中的k个最近点集,正如我们所讨论的,我们试图最小化关于g(.)的EPII(g(X)6=Y)。但很难使用s指示器函数。s指示器函数既不是光滑的,也不是凸面的。因此可以考虑使用凸损失函数。支持向量机(SVM)声称可以解决这个问题。假设对于二进制分类问题,Y取-1和1表示两个类。SVM用凸hing e损失H(x)=[1]代替零一损失- x] +其中,[u]+=max{0,u},u的正部分。SVM尝试最小化相对于g的epiH(Yig(Xi))+λJ(g)。这里λ是tunning参数,J是g的复杂度惩罚。如果最小值为^g,则SVM分类被视为符号(^g)。
|