MoVie: Revisiting Modulated Convolutions for Visual Counting and Beyond

MoVie：重新考虑调制卷积在视觉计数及其他领域的应用.

paper：MoVie: Revisiting Modulated Convolutions for Visual Counting and Beyond

本文关注视觉计数VQA：给定一幅图像和一个序列(一个问题或者类别)，旨在预测出图像中与序列相关的目标数量。通过重新调制卷积模块来融合序列和局部的图像，本文提出了一个简单且有效的方法。由于是在残差瓶颈模块上设计的，因此称为调制卷积瓶颈网络(Modulated conVolutional bottlenecks，MoVie)。该网络在推理时仅需要单次前行传播，可以作为通用 VQA 模型中的计数模块，性能很强。此外，也可以作为通用的推理方法用于其他任务中。

卷积网络可以在具有空间维度的特征图上操作，序列表示可以经过全卷积的方式融合特征图上所有的位置信息，这表明至少有两个原因的存在使得卷积网络更加适合视觉计数：

计数任务是一个平移等效的问题：对于一个固定的局部窗口，输出会随着输入的变化而变化，因此，类似于调制卷积的方式更适合这些融合，尤其是当视觉特征被池化为一个单一的全局向量时(便于和问题或类别 embedding 融合)。
计数任务需要在所有可能的位置上进行搜索，因此相比于那些在每一个位置上都产生输出的卷积特征而言，那些基于自下而上的稀疏的区域级别注意力的特征，可能在召回率上很低。

模型结构如图所示，输出的卷积特征来源于ResNet，之后送入到 Movie 模块。MoVie 模块由 4 个调制卷积瓶颈结构组成，每一个瓶颈结构将序列作为额外的输入来建模特征图，并输出相同尺寸的特征图，最后采用平均池化和两层的分类器来预测答案。