使用全连接层替换ViT中的自注意力层.
- paper:Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet
- arXiv:link
作者认为目前流行的视觉transformer中的自注意力层并不是影响模型性能的最重要部分,而是由其他部分决定的,如由patch嵌入引入的归纳偏置或精心设计的数据增强。
为了验证自注意力层对模型性能的影响,作者将自注意力层换成全连接层。具体地,先对patch嵌入序列按照特征通道进行全连接运算,再将特征转置后按照patch进行全连接运算,并恢复转置。
通过简单的实验,未经过调参的模型获得了74.9%的top-1准确度,相比之下,ViT和DeiT分别获得了77.9%和79.9%的准确度。这表明自注意力层并不是视觉transformer结构中最重要的部分。