Deep Similarity-Based Batch Mode Active Learning with Exploration-Exploitation

通过探索-开发实现基于深度相似性的批处理主动学习.

paper：Deep Similarity-Based Batch Mode Active Learning with Exploration-Exploitation

本文提出了一种批处理主动学习方法，通过在每次迭代中选择一批样本进行标注，以减少深度神经网络中的标记工作。在选择样本时不仅需要确保样本具有足够的信息量，还应该保持样本的多样性。作者提出了一种探索-开发(exploration-exploitation)方法，通过开发(exploitation)选择一组具有最大不确定性和最小冗余的样本，再通过探索(exploration)标注其中最具有代表性的样本。

1. 开发 exploitation

开发阶段旨在选择具有最大不确定性和最小冗余的样本。

(1) 最大不确定性 maximum uncertainty

采用熵来衡量样本$x$的不确定性：

\[E(x) = -\sum_{0<<i<<|Y|} h_i(x) \log h_i(x)\]

其中$h_i(x)$表示样本$x$属于类别$i$的概率。对于一批样本$S$，其不确定性为所有样本不确定性之和：

\[E(S) = \sum_{i\in S}E(x_i)\]

(2) 最小冗余性 minimum redundancy

冗余性旨在评估一批样本中不同样本之间的重复程度，在同一批样本中选择的标注样本应尽可能不同。

冗余性通常在特征空间中进行测量，选用网络最后一层(softmax函数之前)的输出作为特征空间，样本$i$的特征向量为$f_i$，则样本$i,j$之间的冗余性用这两个样本的相似度衡量：

\[Sim(i,j) = f_iMf_j\]

其中$M$是相似度矩阵。若$M$是单位矩阵，则相似度由内积衡量；$M$在训练时作为可学习参数。

对于一批样本$S$，其冗余性计算为：

\[R(S) = \sum_{i \in S} \sum_{j \in S} Sim(i,j)\]

(3) 结合不确定性与冗余性

衡量一批样本$S$的信息量可以由不确定性和冗余性的线性组合实现：

\[I(S) = E(S) - \frac{\alpha}{|S|} R(S)\]

寻找$I(S)$最大的一批样本是非常困难的，因此采用贪心方法进行采样，即首先选择具有最大不确定性的样本，然后选择不确定性较大且与已选样本的冗余性较小的样本；此时样本$i$与已选样本$S$的冗余性计算为：

\[Sim(i,S) = \mathop{\max}_{j \in S}(Sim(i,j))\]

则对新样本$x_i$的信息量评估如下：

\[I(i) = E(x_i) - \alpha Sim(i,S)\]

2. 探索 exploration

在初始情况下已标记样本在样本空间中的占比较小，不能覆盖所有重要区域。探索阶段旨在探索未知区域，尽可能选择距离已标记样本最远的样本。

探索阶段的目标为寻找一批相似度最小的样本$S_e$，使其与已标记样本集$L ∪ S$的相似度也最小：

\[S_e = \mathop{\min}_{S_e} \sum_{i \in S_e} Sim(i,L ∪ S) + \sum_{i \in S_e} \sum_{j \in S_e} Sim(i,j)\]

上述目标是NP-hard问题，因此采用贪心算法近似。每次选择距离已标注数据集最远的样本：

\[i = \mathop{\min}_{i} Sim(i,L ∪ S)\]

按照上述流程逐一选择样本加入$S_e$。

3. Exploration-Exploitation

在主动学习的初始阶段，已标记的样本数量太少，无法覆盖特征空间中的真实数据分布，因此探索过程更加重要；随着已标记数据集越来越大，开发将成为主要目标。

在每次迭代中，首先根据开发标准选择$m$个样本，再根据探索标准选择$k−m$个样本。在早期阶段，$m$相对较小；随着已标注数据的增加，$m$开始增加；在实践中线性增加$m$，直到$m$达到预定值$m_{upper}$。

exploration-exploitation算法的完整流程如下：