Incorporating Convolution Designs into Visual Transformers
CeiT:将卷积设计整合到视觉Transformers中.
CeiT:将卷积设计整合到视觉Transformers中.
CvT:向视觉Transformer中引入卷积.
MaskFormer:逐像素分类并不是语义分割所必需的.
PVT:一种无卷积密集预测的通用骨干.
Segmenter:为语义分割设计的视觉Transformer.
PiT:重新思考视觉Transformer的空间维度.