Lite Pose: Efficient Architecture Design for 2D Human Pose Estimation

Lite Pose：2D人体姿态估计中的高效结构设计.

当前在姿态估计任务上，受HRNet的设计原则影响，普遍认为高分辨率特征图、多分支的结构设计是提升模型性能的有效手段。但高分辨率+多分支这一设计意味着庞大的计算量，与算法落地的高实时性需求是背道而驰的。

本文设计了一个非常直观的实验，将一个HigherHRNet进行逐步缩减，渐进式地扔掉其中的一些模块和分支（替换为恒等路径），直到最后还原成一个接近于单分支结构的模型，在这个过程中保持模型整体的计算量不变，如下图所示：

实验结果发现，随着模型的缩减，性能却是在提升的，这说明对于轻量模型而言，多分支高分辨率的结构是比较冗余的。

本文设计的实验最后得到的模型是形似单分支，而非真正的单分支：尽管扔掉了高分辨率分支上的所有block，但依然维护了一条残差路径，将浅层特征传到深层，并进行不同尺度特征的空间信息融合。

基于以上设计原则，作者设计了Lite Pose，表明对于轻量级姿态估计任务，采用带有残差连接的单分支网络效果更好：