Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers
用Transformer从序列到序列的角度重新思考语义分割.
用Transformer从序列到序列的角度重新思考语义分割.
CrossViT:图像分类的交叉注意力多尺度视觉Transformer.
视觉Transformer真的需要显式位置编码吗?
VT:基于Token的图像表示和处理.
LeViT:以卷积网络的形式进行快速推理的视觉Transformer.
CCT:使用紧凑的Transformer避免大数据依赖.