Lite Pose:2D人体姿态估计中的高效结构设计.
当前在姿态估计任务上,受HRNet的设计原则影响,普遍认为高分辨率特征图、多分支的结构设计是提升模型性能的有效手段。但高分辨率+多分支这一设计意味着庞大的计算量,与算法落地的高实时性需求是背道而驰的。
本文设计了一个非常直观的实验,将一个HigherHRNet进行逐步缩减,渐进式地扔掉其中的一些模块和分支(替换为恒等路径),直到最后还原成一个接近于单分支结构的模型,在这个过程中保持模型整体的计算量不变,如下图所示:
实验结果发现,随着模型的缩减,性能却是在提升的,这说明对于轻量模型而言,多分支高分辨率的结构是比较冗余的。
本文设计的实验最后得到的模型是形似单分支,而非真正的单分支:尽管扔掉了高分辨率分支上的所有block,但依然维护了一条残差路径,将浅层特征传到深层,并进行不同尺度特征的空间信息融合。
基于以上设计原则,作者设计了Lite Pose,表明对于轻量级姿态估计任务,采用带有残差连接的单分支网络效果更好: