郑之杰的个人网站

ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data

ImageBERT：使用大规模弱监督图像文本数据进行跨模态预训练.

Pixel-BERT：使用深度多模态Transformer对齐图像像素和文本.

UNITER：通用图像-文本表示学习.

Oscar：视觉-语言任务的目标语义对齐预训练.

VL-BERT：通用视觉-语言表示的预训练.

ViLBERT：用于视觉和语言任务的无任务特定的视觉语言表示的预训练.