郑之杰的个人网站

Sigmoid Loss for Language Image Pre-Training

语言图像预训练的Sigmoid损失.

VL-BEiT：生成式视觉-语言预训练.

理解领悟能力、U型尺度定律和涌现能力的统一视角.

YOLOv9：通过可编程梯度信息学习想学习的内容.

LoRA+：大模型的高效低秩微调.

视频生成模型作为世界模拟器.