经管之家送您一份
应届毕业生专属福利!
求职就业群
感谢您参与论坛问题回答
经管之家送您两个论坛币!
+2 论坛币
《机器学习导论》2nd Edition ---(土耳其)Ethem Alpaydin 著 范明 昝(zan)红英 牛常勇译 ----机械Press-2014.3
依赖于训练集和假设类,可能存在多个S和G,分别形成S-集和G-集。
S-集中的每个假设都与所有的实例相容,且不存在更特殊的相容假设。
G-集中的每个假设都与所有的实例相容,且不存在更一般的相容假设。
从而两集合形成边界集。其中的任何假设都是相容的,且是解空间的一部分。
存在一个“候选删除”的算法,随着逐个看到训练实例,它增量地更新S-集和G-集。若假定花X足够大,则存在唯一的S和G
给定花X,我们可以找到S或G,或解空间中的任意h,并将它作为我们的假设h。直观讲,h应选取S与G的中间,将增大边缘(margin),而边缘是边界和与它最近的实例之间的距离。
为使得误差函数在具有最大边缘的h上最小化,应选择这样的误差函数(或损失函数),不仅检查实例是否在边界的正确一侧,且还要指出实例离边界多远。
某些应用中,错误决策的代价可能很高,且任何S和G之间的实例都是不确定的(doubt)实例,缺乏数据支持,这些不确定实例无法被确定地标注。此时,系统会拒绝考虑(reject)这些实例,并留待人类专家判定。
假定花H包含C,即存在h属于花H,使得E(h | X)为0。给定假设类花H,可能存在不能学习C的情况,即不存在h属于花H,使得误差为0。因此对于任何应用,都需要确信花H有足够的柔性,或花H具有足够的“能力”学习C。
2.2 VC维
假定有一个数据集,包含N个点。N个点可以用2的N次方种方法标记为正例和负例。因此,N个数据点可以定义2的N次方种不同的学习问题。若对于这些问题中的任意一个,都能够找到一个假设h 属于 花H将正例和负例分开,我们就称花H散列(shatter)N个点。
即,可以用N个点定义的任何的学习问题都能够用一个从花H中抽取的假设无误差地学习。
可以被花H散列的点的最大数量称为花H的VC维(Vapnik-Chervonenkis dimension),记作VC(花H),它度量假设类花H的学习能力。
也许VC维看起来比较悲观,它告诉我们使用矩形作为假设类,只能学习包括4个点的数据集。能学习含有四个点的数据集的学习算法,不是很有用,是由于VC维独立于数据实例的概率分布。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
|