误差
如何理解误差?
内容摘要:监督算法调整参数和学习的基础,其优点有利于启发我们对算法有更深层次的理解。
参考索引:引致《Python机器学习技术:模型关系管理》。误差的形式
监督模型的优劣,需要全盘考虑所有数据,而不能只看局部数据,所以误差需要汇总,但问题是汇总数据的计算方式或规则并不统一,不同的计算方式有不同特点甚至有不同的适用条件,如果你愿意可以就不同算法尝试不同的计算方式,而这种分析思路甚至一度成为机器学习工作者的必要思维准备。
图(a)所示,不管偏向哪个方向的测量其实都是误差,+2的误差和-2的误差是等效的,只是方向相反而已,所以如果是直接对误差求和得到的结果就是0,看起来好像是没有了误差,但其实是掩耳盗铃。现在的问题是如何消除负号?取绝对值还是取平方?如果你对数学有所了解的话,应该能推理出平方相比绝对值拥有更多的好处,比如平方后的数据方差更大,这就导致变量间的相关可能会更高,如图(b),相关区域就是由变量方差的重叠部分组成的,也就是放大了数据信息量,这无异于可以执行更多甚至更复杂的模型。
另外如图(c)所示,如果误差取平方,其误差函数就是U型函数,这样我们就能以最直接的方式到达U型底部,而无需担心局部最小问题的困扰。与此相应的,取完平方变换后的函数也是非线性的,如果取绝对值则是线性的,其实对于机器学习而言非线性模式是最常用的模型形式,因为非线性在复杂模式上有更好的分类性能和优势(如图d)。
=========================================================================