An Ensemble Learning Method:Bagging.
Bagging(Bootstrap Aggregation)是一种集成学习的方法,主要关注如何获得不同的训练模型。 若在数据集上一共训练了个模型;如何得到这些模型呢?可以采取的方法有:
- 选择不同的模型假设空间;
- 设置不同的训练超参数;
- 由算法的随机性得到(如感知机);
- 选择不同的训练样本集。
Bagging通过不同的训练集生成不同的模型。具体地,先通过bootstrapping方法从已有数据集中生成若干子数据集,在每个子数据集上训练模型,再将模型集成起来,对于分类任务可以使用简单投票法,对于回归任务可以使用简单平均法。
Bagging主要关注降低方差,因此在决策树、神经网络等易受样本扰动的的学习器上效果更明显。Bagging方法适用于模型复杂但容易拟合的情形,如用决策树构造随机森林。
⚪ 自助法 Bootstrapping
自助法(Bootstrapping)又称为自举法或拔靴法,名称来源为“pulling yourself up by your own bootstraps”,即“自力更生”;是以统计学中的自助采样(bootstrapping sampling)为基础。
对于具有个样本的训练集,有放回的随机采样次,得到包含个样本的数据集,将该数据集作为训练集;中有一部分样本会在中多次出现,而另一部分样本不会出现。 数据集恰好能还原训练集的概率是。 某一个样本在次采样中始终不会被采集到的概率是:
因此自助法采样后大约有的样本没有出现在数据集中。
⚪ 包外估计 Out-Of-Bag Estimate
通过自助法在训练集采样后大约有的样本没有出现在数据集中,这一部分样本()可以作为验证集对泛化性能进行包外估计(out-of-bag estimate)。以分类为例,则包外估计泛化误差为:
包外估计也是减缓过拟合的方法。当基学习器是决策树时,包外估计可以辅助剪枝;当基学习器是神经网络时,包外估计可以辅助early stopping以减少过拟合的风险。
Related Issues not found
Please contact @0809zheng to initialize the comment