郑之杰的个人网站

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet

T2T-ViT：在ImageNet上从头开始训练视觉Transformer.

CaiT：更深的视觉Transformer.

ConvNeXt V2: 使用MAE协同设计和扩展卷积网络.

DeepViT：构建更深的视觉Transformer.

DeiT：通过注意力蒸馏训练数据高效的视觉Transformer.

在ImageNet-1k数据集上更好地训练视觉Transformer.