Cluster-Margin:一种大规模批量主动学习方法.

作者提出了一种大批量设置下的主动学习方法Cluster-Margin,将每轮标注的批量大小扩展到$100$K-$1$M。Cluster-Margin每次选择置信度最低的一组样本,样本之间的置信度通过间隔得分(两个最大预测类别概率之差)衡量;为了确保样本的多样性,再通过HAC聚类算法选择每个簇中的样本。

1. 初始化步骤

Cluster-Margin首先随机地选择一个种子集合$P$进行标注,并在其上训练网络,然后把所有样本$x$嵌入到网络的倒数第二层构造的特征空间中。

2. 聚类步骤

在整个样本池$X$上应用具有平均链接的层次聚集聚类算法(Hierarchical Agglomerative Clustering with Average-Linkage),以生成聚类$C$。

3. 采样步骤

在采样步骤中每次选择一组差别较大的低置信度样本。首先选择$k_m$个间隔得分最低的样本,间隔得分是指预测结果中排名靠前两个类别的预测概率之差:

\[-[p(\hat{y}_1|x)-p(\hat{y}_2|x)]\]

然后从$k_m$个样本中选择$k_t$个样本,$k_t$是每次迭代的目标批量大小。具体地,从聚类$C$中检索$k_m$个样本的聚类簇,并将它们划分到不同的簇中。

为了从中选择$k_t$个样本,对聚类簇按照聚类大小进行升序排序。然后采用循环采样的方式遍历聚类,每次从一个簇中随机选择一个样本,一次遍历完成后返回最小的不饱和聚类簇。重复上述过程直至选择$k_t$个样本。

上述过程首先从最小的聚类簇中进行采样,因为这些簇来自特征分布的稀疏区域,包含多样性较高的一些样本。

Cluster-Margin方法只需要执行一次聚类操作,在大批量设置下所需时间成本远低于每次迭代都需要聚类的主动学习方法,如基于核心集的方法。

实验结果表明,Cluster-Margin在大批量设置下仍具有突出的表现: