[学习笔记] 充实笔记【机器学习导论 2ndEd】2019-03-24 [推广有奖]

66关注
14粉丝

已卖：251份资源

大师

57%

还不是VIP/贵宾

威望: 1 级
论坛币: 71401 个
通用积分: 14447.0765
学术水平: 749 点
热心指数: 907 点
信用等级: 676 点
经验: 366372 点
帖子: 22538
精华: 0
在线时间: 2590 小时
注册时间: 2014-7-8
最后登录: 2026-4-29

楼主

albertwishedu 发表于 2019-3-24 19:15:19 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

《机器学习导论》2nd Edition ---（土耳其）Ethem Alpaydin 著范明昝（zan）红英牛常勇译 ----机械Press-2014.3

依赖于训练集和假设类，可能存在多个S和G，分别形成S-集和G-集。
S-集中的每个假设都与所有的实例相容，且不存在更特殊的相容假设。
G-集中的每个假设都与所有的实例相容，且不存在更一般的相容假设。
从而两集合形成边界集。其中的任何假设都是相容的，且是解空间的一部分。
存在一个“候选删除”的算法，随着逐个看到训练实例，它增量地更新S-集和G-集。若假定花X足够大，则存在唯一的S和G

给定花X，我们可以找到S或G，或解空间中的任意h，并将它作为我们的假设h。直观讲，h应选取S与G的中间，将增大边缘（margin），而边缘是边界和与它最近的实例之间的距离。
为使得误差函数在具有最大边缘的h上最小化，应选择这样的误差函数（或损失函数），不仅检查实例是否在边界的正确一侧，且还要指出实例离边界多远。

某些应用中，错误决策的代价可能很高，且任何S和G之间的实例都是不确定的（doubt）实例，缺乏数据支持，这些不确定实例无法被确定地标注。此时，系统会拒绝考虑（reject）这些实例，并留待人类专家判定。

假定花H包含C，即存在h属于花H，使得E（h | X）为0。给定假设类花H，可能存在不能学习C的情况，即不存在h属于花H，使得误差为0。因此对于任何应用，都需要确信花H有足够的柔性，或花H具有足够的“能力”学习C。

2.2 VC维
假定有一个数据集，包含N个点。N个点可以用2的N次方种方法标记为正例和负例。因此，N个数据点可以定义2的N次方种不同的学习问题。若对于这些问题中的任意一个，都能够找到一个假设h 属于花H将正例和负例分开，我们就称花H散列（shatter）N个点。
即，可以用N个点定义的任何的学习问题都能够用一个从花H中抽取的假设无误差地学习。

可以被花H散列的点的最大数量称为花H的VC维（Vapnik-Chervonenkis dimension），记作VC（花H），它度量假设类花H的学习能力。

也许VC维看起来比较悲观，它告诉我们使用矩形作为假设类，只能学习包括4个点的数据集。能学习含有四个点的数据集的学习算法，不是很有用，是由于VC维独立于数据实例的概率分布。