MoVie:重新考虑调制卷积在视觉计数及其他领域的应用.

本文关注视觉计数VQA:给定一幅图像和一个序列(一个问题或者类别),旨在预测出图像中与序列相关的目标数量。通过重新调制卷积模块来融合序列和局部的图像,本文提出了一个简单且有效的方法。由于是在残差瓶颈模块上设计的,因此称为调制卷积瓶颈网络(Modulated conVolutional bottlenecks,MoVie)。该网络在推理时仅需要单次前行传播,可以作为通用 VQA 模型中的计数模块,性能很强。此外,也可以作为通用的推理方法用于其他任务中。

卷积网络可以在具有空间维度的特征图上操作,序列表示可以经过全卷积的方式融合特征图上所有的位置信息,这表明至少有两个原因的存在使得卷积网络更加适合视觉计数:

模型结构如图所示,输出的卷积特征来源于ResNet,之后送入到 Movie 模块。MoVie 模块由 4 个调制卷积瓶颈结构组成,每一个瓶颈结构将序列作为额外的输入来建模特征图,并输出相同尺寸的特征图,最后采用平均池化和两层的分类器来预测答案。