郑之杰的个人网站

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

融合前对齐：使用动量蒸馏进行视觉和语言表示学习.

ViLT：无卷积或区域监督的视觉语言Transformer.

冻结语言模型的多模态少样本学习.

通过文本生成统一视觉和语言任务.

ImageBERT：使用大规模弱监督图像文本数据进行跨模态预训练.

Pixel-BERT：使用深度多模态Transformer对齐图像像素和文本.