发帖

楼主: 阿扁V5

2530 1

[数据挖掘理论与案例] 基于偏差-方差分解视角阐释为何Boosting降偏差，Bagging降方差 [推广有奖]

1关注
43粉丝

版主

山野小子

已卖：965份资源

副教授

94%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: -30692312 个
通用积分: 3823.6007
学术水平: 108 点
热心指数: 119 点
信用等级: 91 点
经验: 49334 点
帖子: 1168
精华: 1
在线时间: 651 小时
注册时间: 2013-3-22
最后登录: 2024-3-17

楼主

阿扁V5

发表于 2017-12-4 22:48:01 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

各位看官有过了解集成学习算法，势必会经常看到有人在说，Boosting降偏差，Bagging降方差，那为什么会这样呢？下面基于偏差-方差分解视角的解释可能恰当好处。。。。
偏差-方差分解

最近在看机器学习周志华那本书，受益颇多。我们先抛过来几个问题，再一一解答。

什么是偏差-方差分解？为什么提出这个概念？
什么是偏差？什么是方差？
什么是偏差-方差窘境？应对措施？

1、偏差-方差分解的提出

我们知道训练往往是为了得到泛化性能好的模型，前提假设是训练数据集是实际数据的无偏采样估计。但实际上这个假设一般不成立，针对这种情况我们会使用训练集训练，测试集测试其性能，上篇博文有介绍评估策略。对于模型估计出泛化性能，我们还希望了解它为什么具有这样的性能。这里所说的偏差-方差分解就是一种解释模型泛化性能的一种工具。它是对模型的期望泛化错误率进行拆解。

2、偏差-方差分解推导

样本可能出现噪声，使得收集到的数据样本中的有的类别与实际真实类别不相符。对测试样本 x，另 yd 为 x 在数据集中的标记，y 为真实标记，f(x;D) 为训练集D上学得模型 f 在 x 上的预测输出。接下来以回归任务为例：

模型的期望预测：

样本数相同的不同训练集产生的方差：

噪声：

期望输出与真实标记的差别称为偏差：

通过简单的多项式展开与合并，模型期望泛化误差分解如下：

画红线部分是分解后由这三部分方差、偏差、噪声组成。偏差那部分因为和D无关，所以去掉了ED。画蓝线部分用了数学技巧，并且有两项等于0约简。

3、偏差、方差、噪声

偏差：度量了模型的期望预测和真实结果的偏离程度，刻画了模型本身的拟合能力。

方差：度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。

噪声：表达了当前任务上任何模型所能达到的期望泛化误差的下界，刻画了学习问题本身的难度。

4、偏差-方差窘境

为了得到泛化性能好的模型，我们需要使偏差较小，即能充分拟合数据，并且使方差小，使数据扰动产生的影响小。但是偏差和方差在一定程度上是有冲突的，这称作为偏差-方差窘境。

下图给出了在模型训练不足时，拟合能力不够强，训练数据的扰动不足以使学习器产生显著变化，此时偏差主导泛化误差，此时称为欠拟合现象。当随着训练程度加深，模型的拟合能力增强，训练数据的扰动慢慢使得方差主导泛化误差。当训练充足时，模型的拟合能力非常强，数据轻微变化都能导致模型发生变化，如果过分学习训练数据的特点，则会发生过拟合。

针对欠拟合，我们提出集成学习的概念并且对于模型可以控制训练程度，比如神经网络加多隐层，或者决策树增加树深。针对过拟合，我们需要降低模型的复杂度，提出了正则化惩罚项。

参考：https://www.cnblogs.com/hithink/p/7372470.html

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Boosting bagging boost 方差分解 ING

[数据挖掘理论与案例] 基于偏差-方差分解视角阐释为何Boosting降偏差，Bagging降方差 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[数据挖掘理论与案例] 基于偏差-方差分解视角阐释为何Boosting降偏差，Bagging降方差 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群