用于模板引导的类别无关计数的尺度先验可变形卷积.

类别无关计数任务是指预测查询图像中由几个目标模板所指示的类别目标的数量。在训练过程中,将图像和模板都输入到计数模型中,然后计算预测的密度图与人工标注的点图之间的损失。

通常同一类别的目标在图像中具有相似的比例,而不同的目标类别可能具有截然不同的比例。本文提出了一个尺度先验的可变形卷积网络Scale-Prior Deformable Convolution Network (SPDCN),将样本的尺度信息集成到计数网络主干中。所提出的计数网络可以提取与给定样本相似的目标的语义特征,并有效地过滤不相关的背景。作者进一步提出了一种尺度敏感的广义损失,该算法根据目标尺度自适应地调整损失函数。

SPDCN由尺度先验主干网络、计数目标分割模块和类别无关的密度预测模块构成。

1. 尺度先验的可变形卷积

尺度先验的可变形卷积使用给定样本的尺度来学习相应的尺度嵌入,然后根据这些嵌入向量调整可变形卷积的偏移量。偏移量由两部分组成,局部尺度嵌入$d_c$和全局尺度嵌入$d_g$。

局部尺度嵌入$d_c$利用特征映射局部学习偏移量,是通过对之前的图像特征映射$x$应用一个非线性卷积块$C$得到的:$d_c = C(x)$。

全局尺度嵌入$d_g$是由样本的尺度得到的,通过将样本的平均宽度w和高度h映射到一个向量来表示:$d_g = G(h,w)$。

2. 尺度敏感的广义损失

广义损失通过不平衡最优传输问题直接测量了预测密度图$a$和真实点图$b$之间的距离: UOT为

\[\mathcal{L}_{\mathbf{C}} = \min_{\mathbf{P}\in\mathbb{R}_+^{n\times m}} \left\langle \mathbf{C},\mathbf{P}\right\rangle -\epsilon H\left(\mathbf{P}\right) + \tau ||\mathbf{P}\mathbf{1}_m-\mathbf{a}||_2^2 +\tau |\mathbf{P}^T\mathbf{1}_n-\mathbf{b}|_1\]

其中\(\mathbf{C}\in\mathbb{R}_+^{n\times m}\)是传输代价矩阵,$C_{i,j}$为将密度图从\(\mathbf{x}_i\)搬运到\(\mathbf{y}_j\)的距离。\(\mathbf{P}\)为传输矩阵。令\(\hat{\mathbf{a}} = \mathbf{P}\mathbf{1}_m, \hat{\mathbf{b}}=\mathbf{P}^T\mathbf{1}_n\)。

这个损失包括四部分:

  1. 传输损失,目的是将预测的密度图往真实标注靠拢;
  2. 熵正则化项,目的是控制密度图的稀疏程度;
  3. 希望\(\hat{\mathbf{a}}\)靠近\(\mathbf{a}\);
  4. 希望\(\hat{\mathbf{b}}\)靠近\(\mathbf{b}\)。

为了添加被计数对象的尺度信息,将代价矩阵定义为:

\[C_{i,j} = ||\hat{x}_{i,j}-\hat{y}_{i,j}||_2, \\ \begin{bmatrix}\hat{x}_{i,j}&\hat{y}_{i,j}\end{bmatrix} = \begin{bmatrix}1/s_h&0 \\ 0 & 1/s_w \end{bmatrix} \begin{bmatrix}x_{i,j}&y_{i,j}\end{bmatrix}\]

$s_h$和$s_w$是对齐两个坐标轴的比例因子。为了避免极值,采用一个修正的$S(·)$函数来限制这两个因子的取值范围:

\[S(k) = \frac{\alpha}{1+\exp(-(k-\mu)/\sigma)} + \beta\]

3. 实验分析

SPDCN通过提出的尺度先验可变形卷积在简单的匹配网络中利用尺度信息,显著提高了计数性能。虽然被计数的目标在规模和数量上有所不同,但与其他模型相比,该模型获得了良好的紧凑预测。

下图给出了当模型遇到不同尺度的物体时输出特征图的感受野。尺度先验可变形卷积从局部特征和给定示例的尺度先验中学习偏移量,这允许网络捕获大规模计数目标的特征。