使用SVM方法进行模型训练的时候,以平面线性二分类问题为例:
·在二维平面中,支持向量即是所有参与训练的样本点中距离分类器分划面最近的那些样本点,假设训练数据中仅有两个样本点(一正一负),则这两个样本均是支持向量,根据这两个点可以构造一个分划面;
·现在把上述问题中的训练样本点增加一些,如果增加的那些参与训练的样本点,距离分划面的距离都大于上述两点距离分划面的距离,则这些点均非支持向量;
·如果增加的那些训练样本点距离分划面的距离等于上述两点距离分划面的距离,则这些点均为支持向量;
·如果增加的那些训练样本点距离分划面的距离小于上述两点距离分划面的距离,原先的两个点应该在训练时就不会成为支持向量了;
上述描述在多维空间中,或是在核支持向量机训练时道理是一样的,只不过是在一个超平面空间中完成的。
道理是这样的,最后回答楼主的问题,这个百分比的大小和模型训练的好坏是没有直接关系的,它只是向你描述在这次分类器训练的过程中,采用当前的样本数据和参数,有多少个样本点决定了最终分类器的系数。如果有一个标示可以标出哪些点是支持向量,哪些不是支持向量的话,那么仅用支持向量作为训练样本点再进行一次训练得到的分类器是完全一样的。
|