单阶段目标检测中的空间融合学习.

FPN操作是一个非常常用的用于大小尺寸物体检测的办法,作者指出FPN的缺点是不同尺度之间存在语义gap,举例来说基于iou准则,某个gt bbox只会分配到某一个特定层,而其余层级对应区域会认为是背景(但是其余层学习出来的语义特征其实也是连续相似的,并不是完全不能用的),如果图像中包含大小对象,则不同级别的特征之间的冲突会干扰训练期间的梯度计算,并降低特征金字塔的有效性。

本文提出了ASFF(Adaptively Spatial Feature Fusion)操作,把不同语义信息的特征图concat或者add的融合方式更改为自适应融合,自动找出最合适的融合特征。

ASFF在原来的FPN add方式基础上多了一个可学习系数,该参数是自动学习的,可以实现自适应融合效果,类似于全连接参数。 ASFF具体操作包括 identically rescalingadaptively fusing

\[\begin{gathered} \mathbf{y}_{i j}^l=\alpha_{i j}^l \cdot \mathbf{x}_{i j}^{1 \rightarrow l}+\beta_{i j}^l \cdot \mathbf{x}_{i j}^{2 \rightarrow l}+\gamma_{i j}^l \cdot \mathbf{x}_{i j}^{3 \rightarrow l} \\ \alpha_{i j}^l=\frac{e^{\lambda_{\alpha_{i j}}^l}}{e^{\lambda_{\alpha_{i j}}^l}+e^{\lambda_{\beta_{i j}}^l}+e^{\lambda_{\gamma_{i j}}^l}} \end{gathered}\]

ASFF的具体操作:

  1. 首先对于第l级特征图输出c,h,w,对其余特征图进行上下采样操作,得到同样大小和通道的特征图,方便后续融合
  2. 对处理后的3个层级特征图输出,输入到1x1xn的卷积中,得到3个空间权重向量,每个大小是n,h,w
  3. 然后通道方向拼接得到3n,h,w的权重融合图
  4. 为了得到通道为3的权重图,对上述特征图采用1x1x3的卷积,得到3,h,w的权重向量
  5. 在通道方向softmax操作进行归一化,将3个向量乘加到3个特征图上面,得到融合后的c,h,w特征图
  6. 采用3x3卷积得到输出通道为256的预测输出层

ASFF层学习得到的各种特征可视化效果如下:

此外本文通过为yolov3引入额外的训练技巧,将yolov333.0mAP提升到38.8mAP。采用的训练策略包括: