ConvNeXt V2: 使用MAE协同设计和扩展卷积网络.

paper：ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

本文作者把视觉领域的自监督预训练技术和卷积网络的结构设计结合起来，设计了一种适用于卷积神经网络的掩蔽预训练方法FCMAE，并基于此设计了适用于掩蔽预训练的卷积网络ConvNeXt V2。

1. 全卷积掩蔽自编码器 Fully Convolutional Masked AutoEncoder

掩蔽自编码器 (MAE)是一种流行的视觉自监督学习方法，该方法针对视觉Transformer设计了一种自监督学习框架，通过随机遮挡输入的部分子区域并预测这些区域，实现了视觉信息的表征学习。

然而这种掩蔽自训练方法不适合直接应用到卷积神经网络中。MAE只把可见的图像块输入视觉Transformer，而卷积网络采用密集的滑动窗口。为了将卷积层用于稀疏的图像数据，在预训练阶段采用子流形稀疏卷积，这使得模型只能在可见的数据点上操作；在微调阶段，稀疏卷积层可以转换回标准卷积，而不需要额外的处理。

基于稀疏卷积设计的全卷积掩蔽自编码器(Fully Convolutional Masked AutoEncoder, FCMAE)采用编码器-解码器结构。编码器采用分层结构，逐渐把被掩蔽的输入图像转换为掩码特征；解码器采用单个卷积块，输出预测被掩蔽的图像部分。损失函数采用被掩蔽图像部分与对应真实图像块的均方误差。编码器和解码器均采用ConvNeXt网络。

在实验时作者设置$0.6$的随即掩码策略，即从原始输入图像中随机去除 $60\%$的$32\times 32$图像块，数据增强采用随机裁剪。实验在ImageNet-1K数据集上进行$800$轮预训练，然后进行$100$轮微调。结果表明，使用稀疏卷积能够有效提高掩蔽特征表示学习的质量。

将FCMAE与监督学习进行比较，有监督训练$100$轮的精度是$82.7\%$，有监督训练$300$轮的精度是$83.8\%$，FCMAE的结果是$83.7\%$。实验结果说明FCMAE预训练提供了比随机基准更好的初始化 ($82.7→83.7$)，但仍然不如监督训练的最佳性能。