HR-NAS: Searching Efficient High-Resolution Neural Architectures with Lightweight Transformers - 郑之杰的个人网站

HR-NAS：通过轻量级Transformer搜索高效高分辨率网络结构.

paper：HR-NAS: Searching Efficient High-Resolution Neural Architectures with Lightweight Transformers

本文设计了一个简单的轻量级视觉Transformer模块，然后在HRNet结构基础上进行神经结构搜索，将原本的3x3卷积模块扩展成了3x3,5x5,7x7,轻量级视觉Transformer模块等四种模块拼接的模块，然后搜索这四种模块的比例和通道数。在分类、语义分割、姿态估计、三维目标检测任务上进行了实验，论证了所提方法的有效性。

轻量级视觉Transformer模块将输入特征图先进行下采样投影到一个固定的小尺度，然后送进Transformer计算再上采样还原到输入尺度：

本文设计了一个新的位置编码方式，这种更简单的位置编码在实验中证明超越了之前的方案：

\[P[0,i,j] = \frac{i}{h},i\in [0, h-1] \\ P[1,i,j] = \frac{j}{w},j\in [0, w-1]\]

之前的NAS主要搜索的是单分支的链式结构模型，本文由于是基于HRNet结构的，因此搜索的是多分支结构。将原本HRNet中的Block改为了不同尺度拼接的形式，在搜索过程中通过mask来屏蔽每个卷积核中一定数量的通道。

在不同任务上的搜索结果如下。不同颜色代表了3x3,5x5,7x7,轻量级视觉Transformer模块等四种模块的比例，灰色代表被屏蔽的通道，当一个模块全部被屏蔽则退化成了一个残差结构，如图可以看出原始HRNet确实存在很大的参数冗余。