BADGE:基于多样性梯度嵌入的批量主动学习.

基于多样性梯度嵌入(diverse gradient embedding)批量主动学习(batch active learning)旨在在梯度空间中同时捕捉模型的不确定性和数据样本的多样性。

不确定性通过网络最后一层参数的梯度量级衡量;而多样性通过梯度空间中的一组分散的样本来捕捉。具体计算如下:

$k$-means++算法比$k$-means算法计算速度更快,主要流程如下:

  1. 从数据点中随机选择一个中心点;
  2. 对任意一个样本点$x$,计算该样本与已选择的中心点中最近的中心点的距离$D(x)$;
  3. 通过一个加权概率分布选择一个新的中心点,其中样本点$x$被选中的概率与$D^2(x)$成比例。
  4. 重复步骤2和3直至选出$k$个中心点。

作者对不同的多样性聚类算法进行消融实验:

在不同的分类数据集上不同模型的性能比较如下: