郑之杰的个人网站

Incorporating Convolution Designs into Visual Transformers

CeiT：将卷积设计整合到视觉Transformers中.

CvT：向视觉Transformer中引入卷积.

MaskFormer：逐像素分类并不是语义分割所必需的.

PVT：一种无卷积密集预测的通用骨干.

Segmenter：为语义分割设计的视觉Transformer.

PiT：重新思考视觉Transformer的空间维度.