动态区域感知卷积.

本文提出了动态区域感知卷积(DRConv),它结合了局部共享的思想,自动的将多个卷积核分配给具有相似表示的对应空间区域,并且为卷积操作增加了平移不变性,让其可以在分类任务中正常使用。

DRConv能够可学习地为不同的像素位置匹配不同的卷积核,不仅具有强大的特征表达能力,还可以保持平移不变性。由于卷积核是动态生成的,能减少大量的参数,而整体计算量几乎和标准卷积一致。

DRConv结构主要由两个模块组成,一个是用来决定哪个滤波器分配给哪个区域的可学习的引导掩模模块(Learnable guided mask),另一个是用来生成不同区域滤波器的滤波器生成模块(Filter generator module)。

1. Learnable guided mask

可学习的引导掩模模块通过标准卷积来生成guided feature,根据guided feature将空间维度分成多个区域,在图中显示为guided mask中不同颜色的区域。

对于输入为$X \in R^{H\times W\times C}$,使用$m$个$k\times k$的卷积生成guided feature $F \in R^{H\times W\times m}$。再通过hardmax()生成guided mask $M \in R^{H\times W}$。

2. Filter generator module

卷积核生成模块$G(\cdot)$根据输入图片动态生成每个区域对应的卷积核,可以增强捕获不同图像样本特征的能力。基本结构如图所示,为了得到$m$个$k\times k$的卷积核,首先将输入$X \in R^{H\times W\times C}$通过adaptive average pooling下采样为$R^{k\times k\times C}$,然后通过连续的两个$1\times 1$的卷积层,第一个卷积层使用Sigmoid激活,第二个使用group=$m$的分组卷积。

3. 实验分析

下图展示了guided mask划分区域的可视化结果,可以很明显的看出划分的区域具有很明显的语义信息,能够帮助模型的学习。

下图展现了不同模型大小的情况下,DRConvbaseline方法的性能差距,可以看出DRConv在小模型上能得到显著的效果提升。可能的原因是小模型获取语义信息的情况更加困难,而DRConv显著改善了这一缺点。