郑之杰的个人网站

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks

图像作为外语：所有视觉和视觉-语言任务的BEiT预训练.

通过语言重写改进CLIP训练.

利用噪声文本监督扩大视觉语言表示学习.

注意力掩码对比语言-图像预训练.

MaskCLIP：通过掩码自蒸馏提升对比语言-图像预训练.

通过掩码提升语言-图像预训练效率.