MDETR:用于端到端多模态理解的调制检测.

预先训练好的目标检测器从图像中只能检测出固定类别的目标,这使得模型很难适应自由文本输入中视觉概念的长尾分布。本文提出了MDETR,一种基于Transformer结构的端到端调制检测器,能够根据原始文本query直接来检测图像中的目标,结合训练数据中的自然语言理解来执行目标检测任务,在训练过程中将文本和检测框的对齐作为一种监督信号,真正实现了端到端的多模态推理。

MDETR的结构如图所示。对于图像模型,MDETR采用的是一个CNN backbone来提取视觉特征,然后加上二维的位置编码;对于语言模态,采用了一个预训练好的Transformer语言模型来生成与输入值相同大小的hidden state。然后采用与模态相关的Linear Projection将图像和文本特征映射到一个共享的特征空间。接着将图像embedding和语言embedding进行concat,生成一个样本的图像和文本特征序列。这个序列特征首先被送入到一个Cross Encoder进行处理,后面的步骤就和DETR一样,设置Object Query用于预测目标框。

除了DETR的损失函数,作者提出了两个额外的loss用于图像和文本的对齐。第一个是soft token prediction loss,是一个无参数的对齐损失;第二个是text-query contrastive alignment loss,是一个有参数的损失函数,用于拉近对齐的querytoken的相似度。

⚪ soft token prediction loss

不同于传统的目标检测,modulated detection不是对每一个检测到的物体都感兴趣,而是只对原始文本中出现的object感兴趣。文本与图像是“多对多”的关系,文本中的几个单词可以对应于图像中的同一对象,相反,几个对象可以对应于同一文本。

首先,作者把token的最大数量设置为256。对于每一个与GT匹配的预测框,模型被训练用来预测在所有token位置上的均匀分布。下图展示了损失的图像:

⚪ text-query contrastive alignment loss

soft token prediction loss是用于目标和文本位置的对齐,contrastive alignment loss用于加强视觉和文本embedded特征表示的对齐,确保对齐的视觉特征表示和语言特征表示在特征空间上是比较接近的。这个损失函数不是作用于位置,而是直接作用在特征层面,提高对应样本之间的相似度。

这个损失函数采用了参考了对比学习中的InfoNCE,在实验中采用下面两个损失函数的平均值当做contrastive alignment loss

\[l_{o}=\sum_{i=0}^{N-1}\frac{1}{|T_{i}^{+}|}\sum_{j\in T_i^+}-\log\left(\frac{\exp(o_{i}^{\top}t_{j}/\tau)}{\sum_{k=0}^{L-1}\exp(o_{i}^{\top}t_{k}/\tau)}\right) \\ l_{t}=\sum_{i=0}^{L-1}{\frac{1}{|O_{i}^{+}|}}\sum_{j\in O_{i}^{+}}-\log\left({\frac{\exp(t_{i}^{\mathsf{T}}o_{j}/\tau)}{\sum_{k=0}^{N-1}\exp(t_{i}^{\mathsf{T}}o_{k}/\tau)}}\right)\]