郑之杰的个人网站

LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference

LeViT：以卷积网络的形式进行快速推理的视觉Transformer.

CCT：使用紧凑的Transformer避免大数据依赖.

T2T-ViT：在ImageNet上从头开始训练视觉Transformer.

CaiT：更深的视觉Transformer.

ConvNeXt V2: 使用MAE协同设计和扩展卷积网络.

DeepViT：构建更深的视觉Transformer.