DAL:判别式主动学习.

本文作者提出了判别式主动学习 (Discriminative Active Learning, DAL),该方法将主动学习任务视作二元分类任务,通过选择未标注的样本使得已标注样本集和未标注样本池不可区分。

当从大量未标注样本中采样并构建标注训练集时,希望数据集能够尽可能地代表数据的真实分布。一种解决方法是使用参数化建模方法对未标注样本池的分布进行建模,然而这些模型训练困难、在高维情况下容易崩溃。

假设未标注样本池足够大,则可以询问每一个样本,并判断有多大把握确定它来自未标注样本池而不是已标注数据集。如果不能很好地区分样本来自未标注样本池还是已标注数据集,则表明已标注数据集能够成功地表示未标注样本池的分布。

基于上述思路,把主动学习建模为未标注类别\(\mathcal{U}\)和已标注类别\(\mathcal{L}\)的二分类问题。训练一个二分类器$\Psi$使其能成功区分未标注样本和已标注样本,然后选择未标注类别得分最大的前$K$个样本:

\[\mathop{\arg \max}_{x \in \mathcal{U}} \hat{P} (y=u|\Psi(x))\]

通过在图像分类任务上的实验,结果表明DAL方法在中大型采样批量大小方面与最先进的方法不相上下,同时实现简单,也可以扩展到分类任务以外的其他领域。实验还表明,当批量相对较大时($1000$),目前最先进的方法中没有一种明显优于不确定性采样方法,从而否定了最近文献中报告的一些结果。