使用全连接层替换ViT中的自注意力层.

作者认为目前流行的视觉transformer中的自注意力层并不是影响模型性能的最重要部分,而是由其他部分决定的,如由patch嵌入引入的归纳偏置或精心设计的数据增强。

为了验证自注意力层对模型性能的影响,作者将自注意力层换成全连接层。具体地,先对patch嵌入序列按照特征通道进行全连接运算,再将特征转置后按照patch进行全连接运算,并恢复转置。

通过简单的实验,未经过调参的模型获得了74.9%top-1准确度,相比之下,ViTDeiT分别获得了77.9%79.9%的准确度。这表明自注意力层并不是视觉transformer结构中最重要的部分。