暗示标注:一种用于生物医学图像分割的深度主动学习框架.
暗示标注(suggestive annotation)是一种两阶段的主动学习策略,旨在选择同时具有较高不确定性和较高代表性的样本进行标注。其中不确定性是通过在标注样本集上训练的集成模型来估计的,代表性是通过核心集进行选择的。
首先在样本池\(\mathcal{S}_u\)中选择$K$个具有较高不确定性得分的样本\(\mathcal{S}_c\),不确定性是通过bootstrapping训练的多个模型之间的差异性衡量的。
然后在\(\mathcal{S}_c\)中选择最具有代表性的一个样本子集\(\mathcal{S}_a\)。样本的特征向量的余弦相似度用于衡量样本之间的相似性,\(\mathcal{S}_a\)的代表性得分体现出\(\mathcal{S}_a\)能够代表\(\mathcal{S}_u\)中所有样本的程度:
\[F(\mathcal{S}_a,\mathcal{S}_u) = \sum_{x_j \in \mathcal{S}_u} f(\mathcal{S}_a,x_j) = \sum_{x_j \in \mathcal{S}_u} \mathop{\max}_{x_i \in \mathcal{S}_a} \text{sim}(x_i,x_j)\]从\(\mathcal{S}_c\)中选择$k$个样本构造\(\mathcal{S}_a\)并最大化\(F(\mathcal{S}_a,\mathcal{S}_u)\)是一个最大集覆盖问题,该问题是NP-hard的,其最优多项式时间近似算法是贪心算法:
- 初始化\(\mathcal{S}_a=\Phi\),\(F(\mathcal{S}_a,\mathcal{S}_u)=0\)
- 迭代地向\(\mathcal{S}_a\)中增加样本\(x_i\mathcal{S}_c\),使得\(F(\mathcal{S}_a ∪ x_i,\mathcal{S}_u)\)最大化
- 重复上述过程直至\(\mathcal{S}_a\)包含$k$个样本