DBAL:多样性小批量主动学习.

多样性小批量主动学习(Diverse mini-batch Active Learning, DBAL)是一种两阶段的主动学习策略,旨在选择同时具有较高不确定性和较高代表性的样本进行标注。其中不确定性是通过加权$k$-means算法进行选择的,而代表性是通过$k$-means算法进行选择的。

首先在样本池\(\mathcal{S}_u\)中选择$\beta \cdot K$个具有较高不确定性得分的样本\(\mathcal{S}_c\),不确定性是通过加权$k$-means算法为每个样本指定的权重衡量的。

然后在\(\mathcal{S}_c\)中选择最具有代表性的一个样本子集\(\mathcal{S}_a\)。代表性是通过$k$-means算法产生的中心样本选择的。

DBAL的流程如下:

  1. 使用已标注数据集训练一个分类器;
  2. 评估未标注数据集中每个样本的不确定性得分;
  3. 选择$\beta \cdot K$个不确定性最高的样本;
  4. 使用$k$-means算法将其聚集为$K$个簇;
  5. 选择距离每个聚类中心距离最近的$K$个样本进行标注。