单阶段目标检测中的空间融合学习.
FPN操作是一个非常常用的用于大小尺寸物体检测的办法,作者指出FPN的缺点是不同尺度之间存在语义gap,举例来说基于iou准则,某个gt bbox只会分配到某一个特定层,而其余层级对应区域会认为是背景(但是其余层学习出来的语义特征其实也是连续相似的,并不是完全不能用的),如果图像中包含大小对象,则不同级别的特征之间的冲突会干扰训练期间的梯度计算,并降低特征金字塔的有效性。
本文提出了ASFF(Adaptively Spatial Feature Fusion)操作,把不同语义信息的特征图concat或者add的融合方式更改为自适应融合,自动找出最合适的融合特征。
ASFF在原来的FPN add方式基础上多了一个可学习系数,该参数是自动学习的,可以实现自适应融合效果,类似于全连接参数。 ASFF具体操作包括 identically rescaling和adaptively fusing。
- identically rescaling:定义FPN层级为l,为了进行融合,对于不同层级的特征都要进行上采样或者下采样操作,用于得到同等空间大小的特征图,上采样操作是1x1卷积进行通道压缩,然后双线性插值得到;下采样操作是对于1/2特征图是采用步长为$2$的3 × 3卷积,对于1/4特征图是最大池化+步长为$2$的3 × 3卷积。
- Adaptive Fusion:
ASFF的具体操作:
- 首先对于第l级特征图输出c,h,w,对其余特征图进行上下采样操作,得到同样大小和通道的特征图,方便后续融合
- 对处理后的3个层级特征图输出,输入到1x1xn的卷积中,得到3个空间权重向量,每个大小是n,h,w
- 然后通道方向拼接得到3n,h,w的权重融合图
- 为了得到通道为3的权重图,对上述特征图采用1x1x3的卷积,得到3,h,w的权重向量
- 在通道方向softmax操作进行归一化,将3个向量乘加到3个特征图上面,得到融合后的c,h,w特征图
- 采用3x3卷积得到输出通道为256的预测输出层
ASFF层学习得到的各种特征可视化效果如下:
此外本文通过为yolov3引入额外的训练技巧,将yolov3从33.0mAP提升到38.8mAP。采用的训练策略包括:
- mixup
- 余弦学习率策略
- synchronized batch normalization
- iou loss
- guided anchoring