UNITER:通用图像-文本表示学习.

0. TL; DR

本文介绍了一种名为UNITER(UNiversal Image-TExt Representation)的模型,旨在通过大规模预训练学习通用的图像-文本表示,以支持多种视觉与语言任务。UNITER通过在四个图像-文本数据集(COCOVisual GenomeConceptual CaptionsSBU Captions)上进行预训练,设计了四种预训练任务:掩码语言建模(MLM)、掩码区域建模(MRM)、图像-文本匹配(ITM)和词-区域对齐(WRA)。与以往方法不同,UNITER采用了条件掩码策略,并通过最优传输(OT)技术实现细粒度的词-区域对齐。实验表明,UNITER在多个V+L任务上取得了新的最佳性能,显著优于现有方法。

1. 背景介绍

在视觉与语言(V+L)任务中,联合图像-文本嵌入是实现视觉和文本信息融合的基础。以往的研究通常针对特定任务设计专用的多模态表示。然而,这些模型的架构多样且表示高度依赖于特定任务,限制了它们在其他任务中的通用性。因此,一个关键问题被提出:是否可以学习一种通用的图像-文本表示,以支持多种V+L任务?

为了解决这一问题,本文提出了UNITER模型。该模型基于Transformer架构,通过大规模预训练学习通用的图像-文本表示。与BERT类似,UNITER通过设计多种预训练任务来学习上下文化的表示。这些任务包括掩码语言建模(MLM)、掩码区域建模(MRM)、图像-文本匹配(ITM)和词-区域对齐(WRA)。与以往方法不同,UNITER采用了条件掩码策略,即在预训练任务中,仅对一种模态进行掩码,而保持另一种模态的完整观察。此外,UNITER还引入了基于最优传输(OT)的词-区域对齐任务,以实现细粒度的跨模态对齐。

2. UNITER 模型

UNITER模型由三个主要部分组成:图像嵌入器、文本嵌入器和多层Transformer模块。模型的输入是一对图像和句子,输出是联合的多模态嵌入表示。

UNITER设计了四种预训练任务,以学习通用的图像-文本表示:

\[L_{MLM}(\theta)=-E_{(w,v)\sim D}\log P_{\theta}(w_{m}|w_{/m},v)\] \[L_{MRM}(\theta)=E_{(w,v)\sim D}f_{\theta}(v_{m}|v_{/m},w)\]

MRM有三种变体:

  1. 掩码区域特征回归(MRFR):学习将Transformer输出的掩码区域特征回归到其原始RoI Pooled视觉特征。
  2. 掩码区域分类(MRC):预测掩码区域的物体语义类别。
  3. 掩码区域分类(KL散度)(MRC-kl):使用检测器的输出作为软标签,通过最小化KL散度进行训练。
\[L_{ITM}(\theta)=-E_{(w,v)\sim D}[y\log s_{\theta}(w,v)+(1-y)\log(1-s_{\theta}(w,v))]\] \[L_{WRA}(\theta)=D{ot}(μ,ν)=\min_{T∈Π(a,b)}\sum_{i=1}^{T}\sum_{j=1}^{K}T_{ij}\cdot c(w_{i},v_{j})\]

其中,$μ$和$ν$分别表示单词和图像区域的离散分布,$c(w_i,v_j)$表示单词和图像区域之间的距离(如余弦距离),$T$表示传输计划。

与以往方法不同,UNITER采用了条件掩码策略。在预训练任务中,仅对一种模态进行掩码,而保持另一种模态的完整观察。例如,在MLM任务中,仅掩码文本中的单词,而保持图像区域的完整观察;在MRM任务中,仅掩码图像区域,而保持文本的完整观察。这种策略避免了同时掩码两种模态可能导致的对齐问题,从而学习到更好的跨模态表示。

3. 实验分析

UNITER的预训练数据集由四个现有的V+L数据集组成:COCO、Visual Genome、Conceptual CaptionsSBU Captions。为了确保预训练数据与下游任务的评估数据不重叠,作者对这些数据集进行了清理,排除了下游任务中出现的验证和测试图像。最终,预训练数据集包含560万图像-文本对。

作者在多个V+L任务上对UNITER进行了评估,包括VQA、视觉常识推理(VCR)、NLVR2、视觉蕴含(Visual Entailment)、图像-文本检索和指代表达理解(Referring Expression Comprehension)。实验结果表明,UNITER在所有任务上均取得了新的最佳性能,显著优于现有方法。主要实验结果:

通过广泛的消融研究,作者发现所有四种预训练任务都对模型性能有显著贡献。特别是,词-区域对齐(WRA)任务在需要细粒度区域识别和推理的任务(如VQA和指代表达理解)上表现出了显著的性能提升。

作者还对UNITER模型的注意力机制进行了可视化。结果显示,模型能够学习到多种注意力模式,包括垂直注意力(关注特殊标记$[CLS]$或$[SEP]$)、对角线注意力(关注自身或相邻的词/区域)、块状注意力(模态内自注意力)和反向块状注意力(模态间注意力)。这些注意力模式表明,UNITER能够有效地学习跨模态对齐。