通过射频信号重建视频中的人体姿态.

作者提出了使用射频(Radio Frequency,RF)信号在视觉遮挡的视频中重建具有$15$个关键点的人体姿态。模型采用受Feynman学习法启发的学生-教师网络,使用光学相机和RF阵列天线同时收集视频帧和RF数据,教师网络从视频帧中生成每帧的人体姿态骨骼,学生网络从RF数据中预测相同类型的骨骼(使用CNNRF数据中提取空间特征,使用RPN从特征中检测场景中所有人,使用LSTM在多个时间步长上聚集信息)。

1. Introduction

可见光无法穿透家具和墙壁等阻碍,限制了人类感知环境信息的能力。大多数类型的电磁波或辐射过强,对人体造成伤害;或波长太高,直接穿过物体。RF辐射可以穿透低反射系数的材料如墙壁和家具,并反射人类。这些性质使其应用于搜索和救援等任务中。

作者提出了一种穿过视觉障碍检测人体姿态的方法,其系统设计如下图。通过RF成像装置发射并接收射频信号,使用计算机提取和处理反射数据,并输入深度学习模型预测人体图像。

2. Related Works

使用RF信号进行人体成像的方法可以分为两大类。第一类是使用$100GHz$频率(毫米波)的高精度成像,它能提供人体的细节,但不能穿透墙壁或家具。第二类是使用WiFi波段($3GHz$-$10GHz$)的信号成像,它提供的成像细节较少,但允许穿透常见的建筑材料。

3. Methodology

FMCW天线阵列和RGB相机安装在三脚架相互固定的位置上,同时收集RF信号和RGB图像,同步误差在$5ms$内。天线阵列选用Walabot Developer,其频率带宽为$3.3GHz$-$10GHz$,功率$100pW$。相机选用Logitech HD Pro Webcam C920,图像尺寸降采样为$640 \times 480$。

RF信号生成的三维点云计算成本高。为了减少计算需求,将射频天线阵列收集的三维点云简化为两个二维热图:垂直热图水平热图。通过沿不同方向对反射强度求和,最小化稀疏数据点的数量,保持特征对人体关键点解码的突出性。降低计算复杂度,大大减少了时间和空间需求。

实践中并不是所有的身体部位都出现在单个垂直热图上。这是因为波长大于物体表面粗糙度时,会发生反射现象;而两者差不多时会发生散射现象:

实验中RF信号的波长是$5cm$,而可见光的波长是$10^{-7}m$。因此可见光在人体表面会发生散射,但RF信号会发生反射。但当人运动时,不同的身体部位向设备反射信号,并在不同时刻对设备可见。

在光学成像中,一个镜头聚焦散射光波的采样足以重建完整的图像;在射频领域,为了计算每个时间步长的人体图形,模型不仅必须考虑足够时间段内的RF图像。

模型采用跨模态的监督学习。$\mathcal{M}_1$表示初始的深度学习模型,它以RF图像为输入,在每个时刻输出$15$个人体关键点;$\mathcal{M}_2$表示预训练的深度学习模型,它以RGB图像为输入,在每个时刻输出$15$个人体关键点。后者作为前者的监督信号。