GCNet:探索通用计数网络的自相似度学习.

本文提出了Generalized Counting Network (GCNet),这是一个零样本计数框架。GCNet通过利用固有重复模式的自相似性来发现范例,具有从任意输入图像中自适应识别日常物体固有重复模式的能力。GCNet可以自动有效地从伪样本模拟模块中推断出伪样本范例线索,进一步将提取的范例线索与原始图像的低级特征进行比较,以生成高保真的自相似图,作为随后计数回归的输入。GCNet仅使用计数级监督信号进行端到端训练,在训练和推理阶段不需要用户提供点级标注标签。

1. 伪样例模拟器 Pseudo Exemplar Simulator

伪样例模拟器的构建是为了从调整大小的原始图像中捕获伪示例线索,而不需要显式地提供示例子区域。给定任意大小的自然图像,主分支提取初级2D特征映射$F_r$,次分支将图像的大小调整为512 × 512,以规范化具有不同形状/规模的实例,并减少计算开销。然后生成以范例为中心的输出$F_e$。

对输出$F_e$使用内核大小为8×8,步幅为1的“展开”操作来覆盖广泛的实例区域。然后展开一系列特征块,沿着展开维度进行像素级平均运算,得到伪样本patch $P_e$。将$P_e$分成16个大小为2×2的特征子patch,然后通过线性投影进行变换,得到伪样例一维标记$T_e$。

2. 对偶注意力自相似学习 Dual-Attention Self-Similarity Learning

对偶注意力自相似学习利用提取的$F_r$和$T_e$构建高质量的自相似图。引入一种新的各向异性编码器,用于探测特征空间中三个方向的各向异性特征,即水平、垂直和通道方向。具体来说,给定输入空间表示$F_r$,利用三种核(取向水平、垂直和通道维度)对$F_r$进行卷积,计算各向异性特征。

为了进一步完善特征,提出了一个双重注意冷凝器,以跨分支提取知识。$T_e$通过softmax激活传递给基于mlp的单元,计算三个归一化软权重α, β和γ,并将其输入各向异性编码器,以强调特征空间中信息量最大的方向,同时抑制无用的方向。

在对各向异性特征进行软校正的同时,还设计了一个右转注意力机制,在主分支提取知识的指导下引导伪范例线索的学习。为了对自通道滤波器之间的相似性进行建模,将特征映射$F_r$与其转置矩阵积生成自通道相似性矩阵。为了充分利用一组通道滤波器之间的相似性,利用自通道相似性矩阵生成注意力权值用于指导判别样例符号的学习。

3. 弱监督位置感知计数器 Weakly-supervised Location-aware Counter

为了充分利用生成的相似图中的线索,同时增强原始图像的相似图和特征图之间的相关性,设计了一个弱监督位置感知的计数器,以直接估计任意输入场景的计数。

弱监督位置感知计数器将自相似图与低级特征图结合起来,利用空间像素上的全局相关性,同时降低维数以产生标量计数。采用简单而有效的欧几里得损失作为目标函数来优化框架。

4. 实验分析

为了了解所提出的对偶注意力自相似学习的有效性,使用T-SNE可视化了重新校准的各向异性特征和伪示例标记的学习注意权重。即使不输入类别标签,为相同类学习的权重也倾向于聚集在一起。这表明模型能够通过表示不同维度的区别性注意权重来捕获相同类的实例之间固有的相似属性。然而,由于缺乏类注释,GCNet没有尝试区分具有相似外观的类(例如海鸥与火烈鸟),导致这些类被分组在一起。