多类别目标计数的扩张尺度感知注意力卷积网络.

本文提出用点标注的方式进行多类别目标计数。具体来说,首先将单目标计数密度图改为多类别目标计数图。而由于所有类别的目标都采用同一特征提取器,因此目标特征会在特征空间内进行交互,所以本文设计了一种多任务结构来抑制目标之间的这种负的交互/联系。

本文提出了一种Dilated-Scale-Aware Attention ConvNet (DSAA)来实现多类别目标计数。具体来说,DSAA 由两个模块 Dilated-Scale-Aware Module(DSAM)Category-Attention Module (CAM) 组成。首先利用VGG16提取特征图,DSAM 采用不同的卷积扩张率来提取不同尺度的特征,用于融合这些特征图。由于共享特征提取器,预测的密度图彼此会进行交互,CAM模块用于减少不同类别密度图中的负关联。

单类别目标计数方法主要采用高斯核在点标注上滑动,来产生密度图以及预测出单类别的数量。为了实现多类别计数,本文同样采用高斯核,但预测的是所有类别的密度图。

DSAM模块通过扩张卷积融合多尺度的特征信息,应用不同尺度的扩张卷积分别在 stage_3,4,5 上,之后经过下采样和拼接操作后,一个 3×3的卷积操作用于融合这些多尺度的特征。

CAM模块产生区分性强的密度图,主要是分别处理每个类别的空间注意力。CAM 仅采用 stage_5 上的特征图作为输入,因为该层具有更加丰富的语义信息。具体来说,首先利用距离转换将点图转化为距离图S

S(x,y)=min(xi,yi)A(xxi)2+(yyi)2

通过使用阈值J将距离图S上的点划分为0-1来获得伪标签注意力图。之后经过多个卷积和拼接操作来联合多尺度的特征图。这里卷积指的是采用扩张因子为1,2,3,4的扩张卷积。空间注意力图的数量等于类别的数量。预测的空间注意力图和预测的密度图相乘获得最终的密度图,这一操作能有效减少类别间的联系。

利用L2损失来衡量GT密度图和预测密度图之间的区别:

L2=Nn=1Wx=1Hy=1|P(n,x,y)P(n,x,y)|2

采用相同的损失来训练 DASM,即L2。采用 BCE 损失来训练 CAM

LBCE=1W×HNn=1Wx=1Hy=1((T(n,x,y)×logR(n,x,y))+(1T(n,x,y))×log(1R(n,x,y)))

其中T(n,x,y){0,1}表示位置(x,y)处第n个类别的伪标签注意力 maskR(n,x,y)[0,1]表示位置(n,x,y)处预测的空间注意力。