类别感知目标计数.

现有基于检测的模型非常适合类别感知目标计数以及低密度目标计数任务,但是在目标数量较多或者多类别目标的数量不同时性能较差。因此本文基于检测的方法,提出了一种带有多类别密度估计分支的端到端网络。特别之处在于将所有分支预测的结果喂给一个连续的计数估计网络,从而预测出每个类别的数量。

本文提出的方法由多类别密度估计网络 multi-class density estimation Network (MCDEN)Mask R-CNN检测通道组成,之后这两者的输出作为计数估计网络 count estimation network (CEN) 的输入。

利用 FPN 作为 backbone 提取不同感受野和语义水平的特征图,输出 $4$ 个相关联的特征图 $f_s$,缩放因子为 $s \in {\frac{1}{4},\frac{1}{8},\frac{1}{16},\frac{1}{32}}$。对特征图构造对比特征\(\delta_{l}=s_{l}-s_{1} , l \in\{2,3,4\}\),对尺度感知特征和对比特征进行逐元素乘法操作,并将它们与特征图$f_s$逐通道拼接。对于每一个类别$c$,利用一个特定的解码器网络生成预测密度图,解码器由多个扩张卷积组成,之后接上正则化和 ReLU 激活函数。

$\mathcal B_{est}$和$\mathcal D_{est}$分别为检测管道和密度估计管道的输出结果。首先$\mathcal D_{est}$经过一系列2D 卷积+BN+ ReLU 激活函数,之后通过一个尺度因子$\lambda_{res}$和一个裁剪操作输出。

\[\lambda_{\text {res }, j}=\frac{\sum_{x=1}^{X} \sum_{y=1}^{Y}\left(\mathcal{F}_{\text {stage1 }}\left(D_{j}^{\text {est }}(x, y)\right)\right)}{\sum_{x=1}^{X} \sum_{y=1}^{Y} \mathcal{I}_{b i}\left(\mathcal{F}_{\text {stage } 1}\left(D_{j}^{\text {est }}(x, y)\right)\right)}\]

对于每一个类别,来自于检测通道计算的目标将会保存为向量,将此向量与之前得到的检测结果$B_{j}^{\text{est}}$拼接然后喂给一个MLP可得到每个类别估计的数量。