LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference
LeViT:以卷积网络的形式进行快速推理的视觉Transformer.
LeViT:以卷积网络的形式进行快速推理的视觉Transformer.
CCT:使用紧凑的Transformer避免大数据依赖.
T2T-ViT:在ImageNet上从头开始训练视觉Transformer.
CaiT:更深的视觉Transformer.
ConvNeXt V2: 使用MAE协同设计和扩展卷积网络.
DeepViT:构建更深的视觉Transformer.