重新思考人体姿态估计的多阶段网络.

本文基于网络结构的特点将人体姿态估计网络划分为单阶段人体姿态估计网络和多阶段人体姿态估计网络。单阶段人体姿态估计网络没有模块的重叠,通过backbone结构后接上采样操作构成完整的人体姿态估计网络。多阶段人体姿态估计网络中每个阶段都可以作为独立的模块,有独自的降采样和上采样过程。可以选择任意数量的阶段构成最终的多阶段人体姿态估计网络。

Cascaded Pyramid Network (CPN)网络可以分为两部分:GlobalNetRefineNetGlobalNet的作用主要是对关键点进行初步的检测,使用ResNet作为backbone进行特征提取,使用FPN结构加强特征提取。RefineNetFPN结构中不同分辨率下的特征进行整合,被遮挡的、难以定位的关键点根据融合后的上下文语境信息能够更好的被定位到。MSPN沿用多阶段人体姿态估计网络的思路,对CPN做出一系列改进,使得MSPN的效果超过当前的单阶段人体姿态估计网络。

现有的多阶段人体姿态估计网中,每个阶段在进行特征降采样和升采样时通道保持不变,这会导致特征丢失。因此文中采用CPN的网络结构来替换Hourglass中每个阶段,使单个阶段能力变强,避免因为降采样而丢失信息。

对于每个阶段的模块,MSPN采用CPN中的GlobalNetbackboneResNet)。由于经过多次下采样、上采样导致特征丢失,为避免信息损失,MSPN增加跨阶段的特征融合(黄色箭头)。MSPN将前一个阶段下采样和上采样过程中对应分辨率的两个特征映射,与当前阶段下采样的特征映射进行融合,当前阶段得到的特征映射包含更多先验知识,减少阶段间的信息丢失,有助于缓解梯度消失问题。

具体的特征聚合方法如图所示,对于当前阶段的降采样过程,其输入包含三个部分。分别为:上个阶段中相同尺寸的降采样特征经过$1\times 1$卷积编码后的特征,上个阶段中相同尺寸的上采样特征经过$1\times 1$卷积编码后的特征,以及当前阶段的降采样特征。作者认为Hourglass在传播过程中会丢失信息,而聚合策略可以更有效地缓解这一问题。

MSPN还采用不同阶段的监督,姿态估计的ground truth一般是以关键点为中心的二维高斯分布。对于多阶段人体姿态估计网络,随着阶段的增加,对keypoint的估计是从粗到细的过程。因此进行中间监督的时候,可以将ground truth也设置成从粗到细(从大到小)的heatmap,前面阶段的高斯核较大,后面阶段的高斯核较小,随着阶段的增加要求关键点位置越来越精确。