An Ensemble Learning Method:Bagging.

Bagging(Bootstrap Aggregation)是一种集成学习的方法,主要关注如何获得不同的训练模型。 若在数据集上一共训练了T个模型{gt,t=1,2,...,T};如何得到这些模型呢?可以采取的方法有:

Bagging通过不同的训练集生成不同的模型。具体地,先通过bootstrapping方法从已有数据集中生成若干子数据集,在每个子数据集上训练模型,再将模型集成起来,对于分类任务可以使用简单投票法,对于回归任务可以使用简单平均法。

Bagging主要关注降低方差,因此在决策树、神经网络等易受样本扰动的的学习器上效果更明显。Bagging方法适用于模型复杂但容易拟合的情形,如用决策树构造随机森林

⚪ 自助法 Bootstrapping

自助法(Bootstrapping)又称为自举法或拔靴法,名称来源为“pulling yourself up by your own bootstraps”,即“自力更生”;是以统计学中的自助采样(bootstrapping sampling)为基础。

对于具有N个样本的训练集D有放回的随机采样N次,得到包含N个样本的数据集D,将该数据集作为训练集;D中有一部分样本会在D中多次出现,而另一部分样本不会出现。 数据集D恰好能还原训练集D的概率是N!NN。 某一个样本在N次采样中始终不会被采集到的概率是:

limN(11N)N=1e

因此自助法采样后大约有1e36.8%的样本没有出现在数据集D中。

⚪ 包外估计 Out-Of-Bag Estimate

通过自助法在训练集D采样后大约有36.8%的样本没有出现在数据集D中,这一部分样本(DD)可以作为验证集对泛化性能进行包外估计(out-of-bag estimate)。以分类为例,则包外估计泛化误差为:

ϵoob=1DD(x,y)DDI(f(x)y)

包外估计也是减缓过拟合的方法。当基学习器是决策树时,包外估计可以辅助剪枝;当基学习器是神经网络时,包外估计可以辅助early stopping以减少过拟合的风险。