DMSANet: 对偶多尺度注意力网络.

注意力机制领域的发展受到了两个问题的限制:

  1. 空间和通道注意力以及网络使用两者的结合只使用局部信息,而忽略了远程通道依赖;
  2. 以前的体系结构未能在不同的尺度上捕获空间信息,以提高鲁棒性并处理更复杂的问题。

本文作者提出了一个新的注意力模块DMSANetDMSANet由两部分组成:第一部分用于提取不同尺度的特征并将其聚合,第二部分并行使用空间和通道注意力模块,自适应地将局部特征与其全局依赖性相结合。该网络能够在不同的尺度上利用空间和通道注意力捕捉更多的上下文信息。

⚪ Feature Grouping

Shuffle Attention模块将输入特征图分成若干组,并使用Shuffle单元将通道注意力模块和空间注意力模块集成到每个组的一个块中。子特征被聚合,并使用Channel Shuffle操作符在不同子特征之间传递信息。

对于给定的特征映射$X∈ R^{C×H×W}$,其中$C$、$H$、$W$分别表示通道数、空间高度和宽度,Shuffle Attention模块将$X$沿通道维度分成$G$组,即$X=[X_1,…,X_G], X_k∈ R^{C/G×H×W}$。

注意力模块用于衡量每个特征的重要性。$X_k$的输入沿通道维度分为两个网络$Xk1, Xk2∈ R^{C/2G×H×W}$。第一个分支用于利用通道之间的关系生成通道注意力特征图,而第二个分支用于利用不同特征的空间关系生成空间注意特征图。

⚪ Channel Attention Module

通道注意模块用于有选择地加权每个通道的重要性,从而产生最佳输出特性。计算通道注意力特征图$X∈ R^{C×C}$源于原始特征图$A∈ R^{C×H×W}$。将$A$ reshape为$R^{C×N}$,然后在$A$和$A^T$之间执行矩阵乘法。然后应用softmax来获得通道注意力特征图$X∈ R^{C×C}$:

\[x_{ji} = \frac{\exp(A_i \cdot A_j)}{\sum_{i=1}^C\exp(A_i \cdot A_j)}\]

其中$x_{ji}$测量第$i$个通道对第$j$个通道的影响。在$X$和$A^T$之间执行矩阵乘法,并将其结果reshape为$R^{C×H×W}$。最后的结果与一个比例参数$β$相乘,并且对$A$执行元素求和运算,以获得最终输出$E∈ R^{C×H×W}$:

\[E_{1j} = \beta \sum_{i=1}^C(x_{ji}A_i) + A_j\]

⚪ Spatial Attention Module

局部特征$A∈ R^{C×H×W}$被送入卷积层,以生成两个新的特征映射$B$和$C$,其中$B,C∈ R^{C×H×W}$。将它们reshape为$R^{C×N}$,其中$N=H×W$是像素数。接下来,在$C$和$B^T$之间进行矩阵乘法,并应用softmax层来计算空间注意图$S∈ R^{N×N}$:

\[s_{ji} = \frac{\exp(B_i \cdot C_j)}{\sum_{i=1}^N\exp(B_i \cdot C_j)}\]

其中$s_{ji}$为第$i$个位置对第$j$个位置的影响。接下来,将特征$A$输入一个卷积层,以生成一个新的特征映射$D∈ R^{C×H×W}$。在$D$和$S^T$之间进行矩阵乘法,并将结果整形为$R^{C×H×W}$。将其乘以一个比例参数$α$,并对特征执行元素式求和运算,以获得最终输出$E∈ R^{C×H×W}$:

\[E_{2j} = \alpha \sum_{i=1}^N(s_{ji}D_i) + A_j\]

⚪ Aggregation

在网络的最后部分,所有子特征都被聚合,整个多比例尺预处理特征图可通过concatenation方式获得:

\[F = Concat([E_{1j},E_{2j}])\]

$F∈R^{C×H×W}$是获得的多尺度特征图。本注意力模块被用于跨通道自适应地选择不同的空间尺度,这是由特征描述符引导的。该操作定义:

\[att_i = Softmax(Z_i) = \frac{\exp(Z_j)}{\sum_{i=1}^S\exp(Z_j)}\]

最后,将多尺度通道注意力$att_i$的重新校准权重乘以相应尺度$F_i$的特征图:

\[Y_i = F_i \odot att_i, \quad i=1,...,S\]

⚪ Network Architecture

与下图中的ResnetSENetEPSANet进行了比较。在3×3卷积和1×1卷积之间使用DMSA模块。本网络能够提取不同尺度的特征,并在通过注意力模块之前聚合这些单独的特征。