RF-Avatar:使用射频信号进行3D人体网格估计.

1. 简介

估计$3D$人体网格,捕捉人体的姿态和身体形状,是计算机视觉中一项具有挑战性的任务。但当人们穿着宽松、存在遮挡、恶劣照明条件下,人类的网格恢复仍然容易出现错误。

WiFi范围内的射频(radio frequency)传感系统可以穿过遮挡物并反射人体。这种方法能够保护用户隐私,但是其空间分辨率低于视觉相机。

作者提出了一种使用射频信号进行$3D$人体网格估计的方法RF-Avatar。首先开发了一套在$3D$空间中检测和跟踪多人的射频系统,为每个个体生成运动轨迹。使用Mask-RCNN模型和多头自注意力(multi-headed self-attention)机制从检测到的轨迹中生成身体网格。此外还将人体运动动力学的先验知识编码进网络,并采用对抗训练时间判别器(adversarially trained temporal discriminator)进行学习。

模型训练时使用视觉来提供跨模态的监督。具体地,使用现成的$2D$姿态估计器进行姿态监督,使用基于视觉的$3D$身体扫描进行形状监督

作者使用Skinned Multi-Person Linear(SMPL)模型作为人体模型。SMPL是一个生成模型,它将三维网格分解为形状向量(描述高度、身体比例和重量的变化)和姿态向量(建模运动下三维网格的变形)。

2. 模型

模型框架参考了Mask-RCNN模型,由两部分组成。轨迹提议网络(Trajectory Proposal Network, TPN)从输入的$4$维射频信号(三维空间+时间)中提取人体的运功轨迹,轨迹卷积神经网络(Trajectory-CNN, TCNN)从提取的轨迹特征中预测SMPL人体模型的参数。SMPL参数可以分解为与时间无关的形状向量$β$和与时间相关的关节角$θ$。

(1)Trajectory Proposal Network

轨迹提议网络射频帧(RF frame)的原始序列作为输入,这是一个$4D$张量。首先使用时空卷积提取特征,然后使用循环区域提议网络(Recurrent Region Proposal Network, Recurrent-RPN)为每个射频帧提取候选区域。对候选区域使用RoIAlign将其统一为固定尺寸。

(2)Trajectory-CNN

轨迹卷积神经网络使用TPN中裁剪得到的特征作为输入,并估计每个人体的模型参数。由于不同的RF帧包含不同身体部位,引入自注意模块来预测与时间无关的形状参数$β$。

作者设计了一种数据驱动的姿态和动力学判别器(Pose and Dynamics Discriminator, PDD),将预测的三维关节角度序列作为输入,旨在将其与真实的人体姿态和动力学数据区分开。