MLP-Mixer:一种全连接层结构的视觉模型.
- paper:MLP-Mixer: An all-MLP Architecture for Vision
- arXiv:link
本文提出了一种基于多层感知机(MLP)的视觉任务模型。先将输入图像拆分成若干patch,对每个patch通过全连接层转换为特征嵌入,经过$N$层Mixer层处理后,通过全局平均池化和输出全连接层进行分类。
Mixer层的结构如下图所示。每一个Mixer层由两种MLP层组成,分别是channel-mixing MLP和token-mixing MLP。
- channel-mixing MLP允许特征的不同通道之间进行交流,如下图MLP2所示。
- token-mixing MLP允许特征的不同空间位置进行交流,如下图MLP1所示。
每个MLP由两层全连接层和一个GELU激活函数构成。同一种MLP共享参数。
在实验时,作者设置的模型参数如下:
实验结果如下。基于MLP的模型性能略差于基于卷积或自注意力的模型,但是具有更小的模型参数量和计算量。实验表明MLP也具有较强的特征表示能力。
实际上本文提出的MLP-Mixer模型结构上与卷积层非常接近。输入patch的全连接层可以看成卷积核和步长都为patch大小的常规卷积,而Mixer层可以看成参数共享的深度可分离卷积。