AW-conv:一个卷积神经网络的注意力模块.

当前注意力机制存在两个问题:

AW-conv通过生成与卷积核尺寸相同的注意力图并作用于卷积核,实现了多通道、多区域的注意力机制。记卷积核\(K \in \Bbb{R}^{C_2\times C_1 \times h \times w}\),生成的注意力图为\(A \in \Bbb{R}^{C_2\times C_1 \times h \times w}\),则先对特征应用注意力机制,再应用卷积核得到的输出特征为:

\[O_{[c_2,c_1,m,n]} = Convolution(I \otimes A, K) \\ = \sum_{c_1}^{C_1} \sum_{i}^{h} \sum_{j}^{w} (I_{[c_1,m+i,n+j]}\times A_{[c_2,c_1,i,j]}) \times K_{[c_2,c_1,i,j]} \\ = \sum_{c_1}^{C_1} \sum_{i}^{h} \sum_{j}^{w}I_{[c_1,m+i,n+j]}\times ( A_{[c_2,c_1,i,j]}\times K_{[c_2,c_1,i,j]}) \\ = Convolution(I, A \otimes K)\]

因此等价于先把注意力图与卷积核相乘,再作用于输入特征。

注意力图$A$的生成过程采用如下网络,通过逐点卷积实现: