Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
融合前对齐:使用动量蒸馏进行视觉和语言表示学习.
融合前对齐:使用动量蒸馏进行视觉和语言表示学习.
ViLT:无卷积或区域监督的视觉语言Transformer.
冻结语言模型的多模态少样本学习.
通过文本生成统一视觉和语言任务.
ImageBERT:使用大规模弱监督图像文本数据进行跨模态预训练.
Pixel-BERT:使用深度多模态Transformer对齐图像像素和文本.