BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT:从Transformer中获得上下文的编码表示.
BERT:从Transformer中获得上下文的编码表示.
ELMo:使用语言模型进行词嵌入.
Deformable DETR:使用多尺度可变形的注意力模块进行目标检测.
ViT:使用图像块序列的Transformer进行图像分类.
iGPT:像素级的图像预训练模型.
Flooding:避免训练损失为0.