MoVie:重新考虑调制卷积在视觉计数及其他领域的应用.
本文关注视觉计数VQA:给定一幅图像和一个序列(一个问题或者类别),旨在预测出图像中与序列相关的目标数量。通过重新调制卷积模块来融合序列和局部的图像,本文提出了一个简单且有效的方法。由于是在残差瓶颈模块上设计的,因此称为调制卷积瓶颈网络(Modulated conVolutional bottlenecks,MoVie)。该网络在推理时仅需要单次前行传播,可以作为通用 VQA 模型中的计数模块,性能很强。此外,也可以作为通用的推理方法用于其他任务中。
卷积网络可以在具有空间维度的特征图上操作,序列表示可以经过全卷积的方式融合特征图上所有的位置信息,这表明至少有两个原因的存在使得卷积网络更加适合视觉计数:
- 计数任务是一个平移等效的问题:对于一个固定的局部窗口,输出会随着输入的变化而变化,因此,类似于调制卷积的方式更适合这些融合,尤其是当视觉特征被池化为一个单一的全局向量时(便于和问题或类别 embedding 融合)。
- 计数任务需要在所有可能的位置上进行搜索,因此相比于那些在每一个位置上都产生输出的卷积特征而言,那些基于自下而上的稀疏的区域级别注意力的特征,可能在召回率上很低。
模型结构如图所示,输出的卷积特征来源于ResNet,之后送入到 Movie 模块。MoVie 模块由 4 个调制卷积瓶颈结构组成,每一个瓶颈结构将序列作为额外的输入来建模特征图,并输出相同尺寸的特征图,最后采用平均池化和两层的分类器来预测答案。