郑之杰的个人网站

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT：从Transformer中获得上下文的编码表示.

ELMo：使用语言模型进行词嵌入.

Deformable DETR：使用多尺度可变形的注意力模块进行目标检测.

ViT：使用图像块序列的Transformer进行图像分类.

iGPT：像素级的图像预训练模型.

Flooding：避免训练损失为0.