过拟合模型就像一个孩子,在没有从理论中学到的泛化的情况下,就将结果胡作非为。这些模型在训练期间损失很低,但在使用新数据进行预测时表现不佳。如果一个模型很好地拟合了当前样本,我们怎么能相信它会对新数据做出好的预测呢?过度拟合是由于模型过于复杂而导致的。机器学习的基本规则是尽可能简单地拟合数据。
如果给孩子看猫的图片,他们可以很容易地将猫这个词与猫的形状联系起来。如果图片倒置,有些孩子可能难以识别。老师需要告诉孩子这也代表一只猫。现在孩子意识到物体的形状与方向无关。在使用神经网络和深度学习时,一种称为数据增强的技术用于提供方向独立性。数据增强意味着从给定数据生成相同数据的新化身。通常这是通过随机翻转和移位修改数据集中的图像以编程方式完成的。这使得训练数据集更大,并帮助模型概括图像中表示的对象的形状,并告诉模型形状与图像中表示的对象的位置和方向无关。这正是幼儿园老师对孩子所做的。因此,数据增强可以帮助孩子和模型轻松泛化并快速学习。
大多数机器学习库都提供了一个图像增强 API,可用于在训练数据集中即时创建图像的修改版本。过度拟合是泛化的敌人,因为它使学习者在不理解的情况下胡思乱想。数据增强通过将对象的所有特征暴露给学习者(无论是孩子还是深度学习模型)来帮助避免过度拟合。当模型试图非常接近地拟合训练数据以至于它不能很好地泛化到新数据时,就会发生过度拟合。总而言之,如果你不能很好地概括,那么你的智力水平就很低。这对于人类和机器学习模型都是如此。
随着年龄的增长,你掌握了概括的技巧,你的智力也在增长。
相关帖子DA内容精选
|


雷达卡



京公网安备 11010802022788号







