20190322【充实计划】第1015期 [推广有奖]

101楼

albertwishedu 发表于 2019-3-23 00:15:49 |只看作者 |坛友微信交流群

昨日阅读2小时，累计145 h

学习算法应当找到一个特定的假设（hypothesis）h 属于 H，尽可能逼近C
尽管专家定义了假设类，但他却不能说出参数值是什么，换句话说，尽管我们选定了H，但我们并不知道哪个特定的h 属于 H等于或最接近于C。
一旦我们把注意力局限于这个假设类，学习类就归结为较简单的问题：找出定义h的四个参数（即前面所描述的那个矩形的四个坐标）

实际上，我们并不知道C(x)，因此无法评估h(x)与C(x)的匹配程度。我们所拥有的是训练集花X，它是所有可能的x的一个小子集。
经验误差（empirical error）是h的预测（prediction）与花X中给定的预期值（required value）不同的训练实例所占的比例。
【此处有公式】

在我们的例子中，假设类花H是所有可能的矩形的集合，每个四元组（p1,p2,e1,e2）都定义花H中的一个假设h (h是四元组的上标）
我们需要选择其中最好的一个：即给定训练集，我们需要找到这四个参数的值，使得它涵盖所有的正例而不包括任何的负例。

如果x1和x2是实数，则存在无穷个h满足上述条件，即对于这些h误差E为零。但给定一个接近于正例和负例边界的某个未来实例，不同的候选假设可能做出不同的预测。这是泛化问题（generalization），即假设对不在训练集中的未来实例的分类的准确率如何。
一种可能的策略是：找出最特殊的假设（most specific hypothesis）S，涵盖所有正例而不包括任何负例的最紧凑的矩形。这样得到一个假设h=S，作为我们的诱导类（induced class）
实际的类C可能会比S更大，但绝对不会更小。

最一般的假设（most general hypothesis）G是涵盖所有正例而不包括任何负例的最大矩形。
对任何介于S和G之间的h 属于花H，h为无误差的有效假设，称作与训练集相容（consistent），且这样的h形成解空间（version space）给定另一个训练集。S、G、解空间、参数，因此学习得到的假设 h 可能不同。