《机器学习导论》2nd Edition ---(土耳其)Ethem Alpaydin 著 范明 昝(zan)红英 牛常勇译 ----机械Press-2014.3
2.4 噪声(noise)
噪声是数据中有害的异常。
噪声的存在,类的学习可能更加困难,且使用简单的假设可能做不到零误差。
噪声有以下几种解释:
- 记录输入属性可能不准确,这可能导致数据点在输入空间的移动。
- 标记数据点可能有错,可能将正例标记为负例,或相反。(称指导噪声:teacher noise)
- 可能存在我们没有考虑到的附加属性,会影响实例的标注。(附加属性可能是隐藏的(hidden)或潜在的(latent) ,因此是不可观测的。)这些被忽略的属性所造成的影响作为随机成分,是“噪声”的一部分。
当有噪声时,在正负实例之间不存在简单的边界,且为了将它们分开,需要对应于具有更大能力的假设类的复杂假设。
矩形可以用四个数定义,然,为了定义更复杂的形状,就需要具有大量参数的更复杂的模型。
利用复杂模型,可以更好地拟合数据,得到零误差。
另一个可行的方法是保持模型的简单性并允许一些误差的存在。
使用简单的矩形(除非其训练误差很大)更有意义,原因是:
1)矩形是一种容易使用的简单模型。(容易检查一个点是在矩形内还是在矩形外,对未来的数据实例,可以容易地检查它是正例还是负例)
2)矩形是一种容易训练的简单的模型,具有较少参数。简单模型具有更小的方差(variance),具有较大的偏倚(bias)。求解最优模型相当于最小化偏倚和方差。
3)矩形是容易解释的简单模型。
4)如果输入数据中确实存在错误标记的实例或噪声,且实际的类确实就是像矩形这样的简单模型,那么由于矩形具有较小的方差,且较少地被单个实例所影响,所以尽管可能导致训练集上较大误差,也是比曲线图像更好的分类器。
其泛化能力更好。
(Occam's razor)奥克姆剃刀规则:说较简单的解释看上去更可信,且任何不必要的复杂性都应该被摒弃。