郑之杰的个人网站

微调 Grounding DINO 和 Label Studio 进行半自动化目标检测标注

Semiautomatic Image Annotation with Grounding DINO and Label Studio.

CoCa：对比描述器是图像文本基础模型.

VinVL：重新回归视觉语言模型中的视觉表示.

SimVLM：弱监督的简单视觉语言模型预训练.

GIT：视觉和语言的通用图像到文本Transformer.

VLMo：使用模态混合专家的统一视觉语言预训练.