楼主: albertwishedu
701 8

[学习笔记] 充实笔记【机器学习导论 2ndEd】2019-03-26 [推广有奖]

大师

47%

还不是VIP/贵宾

-

威望
1
论坛币
70538 个
通用积分
11512.2366
学术水平
742 点
热心指数
900 点
信用等级
669 点
经验
356353 点
帖子
21495
精华
0
在线时间
2413 小时
注册时间
2014-7-8
最后登录
2024-5-8

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

《机器学习导论》2nd Edition ---(土耳其)Ethem Alpaydin 著 范明 昝(zan)红英 牛常勇译 ----机械Press-2014.3


2.4 噪声(noise)
噪声是数据中有害的异常。
噪声的存在,类的学习可能更加困难,且使用简单的假设可能做不到零误差。
噪声有以下几种解释:
  • 记录输入属性可能不准确,这可能导致数据点在输入空间的移动。
  • 标记数据点可能有错,可能将正例标记为负例,或相反。(称指导噪声:teacher noise)
  • 可能存在我们没有考虑到的附加属性,会影响实例的标注。(附加属性可能是隐藏的(hidden)或潜在的(latent) ,因此是不可观测的。)这些被忽略的属性所造成的影响作为随机成分,是“噪声”的一部分。

当有噪声时,在正负实例之间不存在简单的边界,且为了将它们分开,需要对应于具有更大能力的假设类的复杂假设。
矩形可以用四个数定义,然,为了定义更复杂的形状,就需要具有大量参数的更复杂的模型。

利用复杂模型,可以更好地拟合数据,得到零误差。
另一个可行的方法是保持模型的简单性并允许一些误差的存在。

使用简单的矩形(除非其训练误差很大)更有意义,原因是:
1)矩形是一种容易使用的简单模型。(容易检查一个点是在矩形内还是在矩形外,对未来的数据实例,可以容易地检查它是正例还是负例)
2)矩形是一种容易训练的简单的模型,具有较少参数。简单模型具有更小的方差(variance),具有较大的偏倚(bias)。求解最优模型相当于最小化偏倚和方差。
3)矩形是容易解释的简单模型。
4)如果输入数据中确实存在错误标记的实例或噪声,且实际的类确实就是像矩形这样的简单模型,那么由于矩形具有较小的方差,且较少地被单个实例所影响,所以尽管可能导致训练集上较大误差,也是比曲线图像更好的分类器。
其泛化能力更好。
(Occam's razor)奥克姆剃刀规则:说较简单的解释看上去更可信,且任何不必要的复杂性都应该被摒弃。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:造成的影响 简单模型 复杂假设 机器学习 影响实例

回帖推荐

葛永浩 发表于6楼  查看完整内容

给你点赞!

artra2012 发表于5楼  查看完整内容

为您点赞!!!

经管之家编辑部 发表于4楼  查看完整内容

给你点赞!

lonestone 发表于3楼  查看完整内容

努力跟上

HappyAndy_Lo 发表于2楼  查看完整内容

已赞!
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
经管之家编辑部 + 100 + 3 + 3 + 3 精彩帖子

总评分: 论坛币 + 100  学术水平 + 3  热心指数 + 3  信用等级 + 3   查看全部评分

本帖被以下文库推荐

沙发
HappyAndy_Lo 发表于 2019-3-27 00:04:54 |只看作者 |坛友微信交流群

已赞!

使用道具

藤椅
lonestone 在职认证  发表于 2019-3-27 06:55:08 来自手机 |只看作者 |坛友微信交流群
albertwishedu 发表于 2019-3-27 00:03
《机器学习导论》2nd Edition ---(土耳其)Ethem Alpaydin 著 范明 昝(zan)红英 牛常勇译 ----机械Pre ...
努力跟上

使用道具

给你点赞!

使用道具

报纸
artra2012 在职认证  发表于 2019-3-27 08:26:19 |只看作者 |坛友微信交流群
为您点赞!!!

使用道具

地板
葛永浩 发表于 2019-3-27 08:54:57 |只看作者 |坛友微信交流群
给你点赞!

使用道具

7
从1万到一亿 在职认证  发表于 2019-3-27 15:19:14 |只看作者 |坛友微信交流群
谢谢分享,点赞!

使用道具

8
充实每一天 发表于 2019-3-27 17:29:41 来自手机 |只看作者 |坛友微信交流群
点赞~

使用道具

9
sulight 学生认证  发表于 2019-3-27 20:31:58 |只看作者 |坛友微信交流群
谢谢分享,
学习心得:
1)矩形是一种容易使用的简单模型。(容易检查一个点是在矩形内还是在矩形外,对未来的数据实例,可以容易地检查它是正例还是负例)
2)矩形是一种容易训练的简单的模型,具有较少参数。简单模型具有更小的方差(variance),具有较大的偏倚(bias)。求解最优模型相当于最小化偏倚和方差。
3)矩形是容易解释的简单模型。
4)如果输入数据中确实存在错误标记的实例或噪声,且实际的类确实就是像矩形这样的简单模型,那么由于矩形具有较小的方差,且较少地被单个实例所影响,所以尽管可能导致训练集上较大误差,也是比曲线图像更好的分类器。
其泛化能力更好。
已有 1 人评分论坛币 热心指数 收起 理由
经管之家编辑部 + 10 + 1 鼓励积极发帖讨论

总评分: 论坛币 + 10  热心指数 + 1   查看全部评分

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-11 20:55