卷积神经网络中的圆形卷积核.

卷积神经网络中的卷积核一般是矩形的,矩形卷积核存储方便,利于计算。然而生物视觉系统的感受野是近似圆形的,受人眼视觉系统感受野的启发,作者提出一种圆形的卷积操作,相比于矩形的卷积,圆形的卷积核主要有以下几个优点:

  1. 圆形卷积核的感受野和生物视觉的感受野更加相似;
  2. 圆形卷积核的感受野在各个方向都是对称的,可以适应全局或者局部输入特征在不同方向上的信息变化;而矩形卷积核只在固定的几个方向是对称的;
  3. 研究表明矩形卷积核的有效感受野更加接近圆形的高斯分布,因此直接设计圆形卷积核是合理的。

圆形卷积核可以看作是一种特殊的可变形卷积核。一般的可变形卷积核引入额外的参数和计算量,增加了计算复杂度。作者则通过双线性插值构造圆形卷积核,实现过程与常规的矩形卷积相同,具体实现如下。

对于输入图像$I$,尺寸为$3\times3$的方形卷积对位置$j$处感受野内的特征$I_{j+s}$进行加权求和,计算如下:

\[O_j=\sum_{s \in S}^{} W_sI_{j+s} \\ S=\{(-1,1),(0,1),(1,1),(-1,0),(0,0),(1,0),(-1,-1),(0,-1),(1,-1),\}\]

由于圆形卷积核的感受野包含非整数的位置,所以作者使用双线性插值获取相应位置的特征采样值$I_{j+r}$,并进行加权求和:

\[O_j=\sum_{s \in S, r \in R}^{} W_sI_{j+r} \\ R=\{(-\frac{\sqrt{2}}{2},\frac{\sqrt{2}}{2}),(0,1),(\frac{\sqrt{2}}{2},\frac{\sqrt{2}}{2}),(-1,0),(0,0),(1,0),(-\frac{\sqrt{2}}{2},-\frac{\sqrt{2}}{2}),(0,-1),(\frac{\sqrt{2}}{2},-\frac{\sqrt{2}}{2}),\}\]

双线性插值也是一种线性变换,通过矩阵$B$表示,则圆形卷积的计算公式也可以表示为: \(O_j=\sum_{s \in S, r \in R}^{} W_s(\sum_{s \in S}^{}B(s,j+r)I_{s})\)

由于乘法的结合律,权值矩阵$W$和变换矩阵$B$可以合成为一个新的矩阵,所以测试时并不会引入新的计算量和参数量。因此测试时采用重参数技巧,即将两个矩阵$W$和$B$进行合并,保存卷积核重参数后的权重,在推理时直接使用新的卷积核进行常规卷积操作,从而不需要计算特征的差值采样值。

作者并没有单独采用圆形卷积,而是将圆形卷积和矩形卷积集成起来。每个集成的卷积核都有两种感受野(每个集成的卷积核都有一对圆形和矩形核,这两个核共享权值矩阵$W$但有不同的变换矩阵$B$)。训练时,每层的所有卷积核都随机选择圆形或者矩形。因此集成核的感受野是一个伯努利随机变量$E\text{~Ber}(S,R,0.5)$,集成核的输出卷积结构可以被表示成:

\[O_j=\sum_{s \in S, e \in E}^{} W_s(\sum_{s \in S}^{}B(s,j+e)I_{s})\]

由于网络的每一层都从两种卷积方式中随机地选择一种进行使用,所以对于$L$层网络,就有$2^L$种不同的子网络结构,大大扩展了模型的学习空间。

作者进一步设计了可以自适应调节感受野大小的矩形和圆形卷积核,如下图所示。在训练时,采用一个可学习的参数$α$动态控制卷积核感受野的大小,使得矩形卷积核的感受野为$D_s=αS$,圆形卷积核的感受野为$D_c=αR$。由于在训练过程中卷积核的形状是随机选择的,所以训练过程的感受野大小也符合伯努利分布$D\text{~Ber}(D_s,D_c;0.5)$。

实验表明,在没有数据增强的情况下,圆形卷积核表现比矩形卷积核好;但使用数据增强后圆形卷积核的性能反而下降。且没有数据增强的圆形卷积核的性能也比使用数据增强的矩形卷积核要差。

从可视化结果中不难看出,圆形卷积核能够捕捉更精细的特征。