多类别目标计数的扩张尺度感知注意力卷积网络.
本文提出用点标注的方式进行多类别目标计数。具体来说,首先将单目标计数密度图改为多类别目标计数图。而由于所有类别的目标都采用同一特征提取器,因此目标特征会在特征空间内进行交互,所以本文设计了一种多任务结构来抑制目标之间的这种负的交互/联系。
本文提出了一种Dilated-Scale-Aware Attention ConvNet (DSAA)来实现多类别目标计数。具体来说,DSAA 由两个模块 Dilated-Scale-Aware Module(DSAM) 和 Category-Attention Module (CAM) 组成。首先利用VGG16提取特征图,DSAM 采用不同的卷积扩张率来提取不同尺度的特征,用于融合这些特征图。由于共享特征提取器,预测的密度图彼此会进行交互,CAM模块用于减少不同类别密度图中的负关联。
单类别目标计数方法主要采用高斯核在点标注上滑动,来产生密度图以及预测出单类别的数量。为了实现多类别计数,本文同样采用高斯核,但预测的是所有类别的密度图。
DSAM模块通过扩张卷积融合多尺度的特征信息,应用不同尺度的扩张卷积分别在 stage_3,4,5 上,之后经过下采样和拼接操作后,一个 $3\times 3$的卷积操作用于融合这些多尺度的特征。
CAM模块产生区分性强的密度图,主要是分别处理每个类别的空间注意力。CAM 仅采用 stage_5 上的特征图作为输入,因为该层具有更加丰富的语义信息。具体来说,首先利用距离转换将点图转化为距离图$S$:
\[S_{(x, y)}=\min _{\left(x_{i}, y_{i}\right) \in A} \sqrt{\left(x-x_{i}\right)^{2}+\left(y-y_{i}\right)^{2}}\]通过使用阈值$J$将距离图$S$上的点划分为0-1来获得伪标签注意力图。之后经过多个卷积和拼接操作来联合多尺度的特征图。这里卷积指的是采用扩张因子为$1,2,3,4$的扩张卷积。空间注意力图的数量等于类别的数量。预测的空间注意力图和预测的密度图相乘获得最终的密度图,这一操作能有效减少类别间的联系。
利用$L_2$损失来衡量GT密度图和预测密度图之间的区别:
\[L_{2}=\sum_{n=1}^{N} \sum_{x=1}^{W} \sum_{y=1}^{H}\left|P_{(n, x, y)}^{\prime}-P_{(n, x, y)}\right|^{2}\]采用相同的损失来训练 DASM,即$L_{2}^{\prime}$。采用 BCE 损失来训练 CAM:
\[L_{B C E}=-\frac{1}{W \times H} \sum_{n=1}^{N} \sum_{x=1}^{W} \sum_{y=1}^{H}\left(\left(T_{(n, x, y)} \times \log R_{(n, x, y)}\right)\right.\left.+\left(1-T_{(n, x, y)}\right) \times \log \left(1-R_{(n, x, y)}\right)\right)\]其中\(T_{(n,x,y)}\in {\{}0,1{\}}\)表示位置$(x,y)$处第$n$个类别的伪标签注意力 mask。$R_{(n,x,y)}\in[0,1]$表示位置$(n,x,y)$处预测的空间注意力。