郑之杰的个人网站

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

用Transformer从序列到序列的角度重新思考语义分割.

CrossViT：图像分类的交叉注意力多尺度视觉Transformer.

视觉Transformer真的需要显式位置编码吗？

VT：基于Token的图像表示和处理.

LeViT：以卷积网络的形式进行快速推理的视觉Transformer.

CCT：使用紧凑的Transformer避免大数据依赖.