PSANet: 场景解析的逐点空间注意力网络.

在卷积神经网络中,卷积滤波器的设计使得信息流被限制在局部区域,从而限制了网络对复杂场景的理解。本文作者提出了Point-wise Spatial Attention Network (PSANet),通过自适应学习一个注意力掩码,使得特征映射上的每个位置的像素都可以和其他位置的像素建立联系,来解决局部区域限制的问题;同时设计了双向的信息流传播路径,也就是每个位置都与其他位置相关,同时两个位置能够互相通信,互相影响。

PSANet有三种像素间的通信模式,collectdistribute是单向信息传递(collect:其他位置的信息传递到当前位置,distribute:当前位置的信息传递到其他位置),bi-direction是双向信息传递(其实就是collect+distribute)。

PSA(bi-direction)结构图如下,上方的分支为collect分支,下方为distribute分支。通过PSA模块,每个像素都可以和其他位置建立联系,从而丰富了上下文信息。

下面介绍PSA模块的collect的工作原理,distribute与其相反。对于给定的特征图$[c,h,w]$,经过卷积得到$[(2h-1)(2w-1),h,w]$的特征图。对于特征图中的像素点$i$,把其嵌入$[(2h-1)(2w-1)]$调整为尺寸$[2h-1,2w-1]$。在调整尺寸后的嵌入特征上构造mask,使得mask中像素点$i$的位置恰好为嵌入特征的中心,把mask调整为尺寸$[h,w]$。则对所有像素点可得到attention map $[hw,h,w]$。

PSANet网络结构如下图所示,使用了辅助损失函数。