MLP-Mixer:一种全连接层结构的视觉模型.

本文提出了一种基于多层感知机(MLP)的视觉任务模型。先将输入图像拆分成若干patch,对每个patch通过全连接层转换为特征嵌入,经过$N$层Mixer层处理后,通过全局平均池化和输出全连接层进行分类。

Mixer层的结构如下图所示。每一个Mixer层由两种MLP层组成,分别是channel-mixing MLPtoken-mixing MLP

每个MLP由两层全连接层和一个GELU激活函数构成。同一种MLP共享参数。

在实验时,作者设置的模型参数如下:

实验结果如下。基于MLP的模型性能略差于基于卷积或自注意力的模型,但是具有更小的模型参数量和计算量。实验表明MLP也具有较强的特征表示能力。

实际上本文提出的MLP-Mixer模型结构上与卷积层非常接近。输入patch的全连接层可以看成卷积核和步长都为patch大小的常规卷积,而Mixer层可以看成参数共享的深度可分离卷积。