为超宽带MIMO雷达设计高效的穿墙人体姿态重构网络.

目前已经有一些使用射频信号在遮挡场景中进行二维和三维人体姿态检测的工作,但这些方法的环境适应性较差,计算复杂度高。本文作者提出了一种基于超宽带多输入多输出雷达的穿墙人体姿态重构网络UWB-Pose,首先使用雷达系统构建人体的3D雷达图像,并将雷达图像转换为离散的3D点,通过设计一个轻量级的网络,从输入点数据中提取人体特征,并将特征转换为三维姿态坐标。

本文的主要贡献如下:

  1. 提出了一种将雷达信号转换为点数据的方法,消除雷达图像中的冗余信息,降低数据的维度;
  2. 设计了一种从雷达点数据中重构三维人体姿态的金字塔网络;
  3. 使用一个超宽带雷达系统收集大规模数据集,通过实验验证所提方法的性能。

1. 系统概述

实验系统如下图所示。首先使用超宽带多输入多输出雷达收集人体目标的反射回波,使用动目标指示(moving target indication, MTI)技术去除静态杂波,并使用2D成像获得整个检测场景的图像。在2D场景图象中检测和跟踪目标,以去除运动杂波并进行目标定位,然后对目标所在的小区域内进行3D成像,从而将多个目标分割成多个单目标进行处理。之后采用CFAR检测、等值面网格构造和点采样等方法得到人体轮廓网格和人体点集,最后将采样点送入神经网络重构三维人体姿态。

2. 数据收集

若雷达具有$N_T$个发射天线和$N_R$个接收天线,空间$(x,y,z)$中的像素$p$的3D BP成像形式为:

\[I(x,y,z) = \sum_{i=1}^{N_T} \sum_{j=1}^{N_R} s_{i,j}(\tau_{i,j}(x,y,z))\]

其中$s_{i,j}(t)$是第$i$个发射天线发射并由第$j$个接收天线接收的回波信号,是发射天线位置$r_{T,i}$,接收天线位置$r_{R,j}$和目标位置$r_p$之间的往返时间延迟:

\[\tau_{i,j}(x,y,z) = \frac{||r_p-r_{T,i}||_2+||r_p-r_{R,j}||_2}{c}\]

将上式应用于所有像素可以获得3D雷达图像,其中每个像素的强度表示成像场景中相应位置的反射功率。对于穿墙探测场景,雷达信号传播路径如下图所示。由于墙体材料的介电常数高于空气的介电常数,电磁波信号穿过墙体时会发生折射,导致信号的传输距离大于目标的实际距离,使得目标的成像位置滞后于实际位置。作者使用基于墙体参数的墙体补偿算法来补偿这种时间延迟。

作者使用marching cube算法根据雷达图像的CFAR结果构建成像的等值面网络。首先将三维空间划分成多个立方体,根据立方体顶点的强度信息和等值面之间的数值关系确定每个立方体的内三角形等值面,最后根据三维空间中的所有立方体的内部平面对三维人体等值面进行拟合。

最远点采样(farthest point sampling,FPS)通过对人体等值面进行点采样,减少数据的输入维度,从而降低模型所需的参数量,并统一样本的数据长度。与随机采样方法相比,在质心数量相同的情况下,PFS对整个点集具有更好的覆盖性,能够更有效地表征人体轮廓的形态。

数据采集系统包括雷达和相机。相机与雷达接收机同步,用于捕捉场景中的光学图像,从光学图像中获取人体的三维姿态坐标,通过时间戳匹配雷达数据和光学结果。作者共收集了$12$万帧的数据集,包括多个场景下的多个目标。

3. 网络设计

网络结构的设计受到PointnetPointnet++等点数据处理网络的启发。由于网络的输入数据是一组没有顺序的点,因此采用一系列对称处理来实现输入点的顺序不变性。

网络整体可以分为两层。第一层网络输入尺寸为$N\times 3$的成像点,通过PFS和查询点搜索从输入点中采样$N_1$个点,并为每个点划分一个区域,区域中包含$K$个点,因此得到尺寸为$N_1\times 3$的点特征和尺寸为$N_1\times K \times 3$的区域特征。将区域特征通过金字塔分组模块调整尺寸为$N_1\times C$,并将其与采样点连接后作为第二层网络的输入,输入尺寸为$N_1\times (3+C)$。第二层网络通过多层感知机和最大池化提取尺寸为$1 \times C_2$的特征,并最终得到长度为$48=16\times 3$的特征向量,用于表示姿态的三维坐标。实验中采样点数量设置为$N=512$。

深度网络中的感受野描述了能够捕捉的上下文信息范围。对于该网络通过金字塔分组模块来提取多个感受野的信息。具体地,对每个采样点使用不同尺度的邻域划分局部区域,从而获得包含不同数量点的区域;经过多层感知机和最大池化后调整特征维度,将不同尺度的特征连接起来得到最终的特征。实验中设置了$4$层金字塔尺度,分别为$0.1,0.3,0.5,0.8$。

4. 实验分析

实验中雷达的探测区域为$4 \times 5$m,方位角范围$-2$~$2$m,距离范围$0$~$5$m。实验使用的雷达系统具有$10$个发射天线和$10$个接收天线,天线阵列能够等效成$100$个虚拟天线单元,从而提供较大的信号增益。

实验在自由空间和穿墙环境下进行。穿墙实验中墙体厚度$24$cm,$2.3$ GHz信号的衰减为$14$dB。下表展示了基于卷积的方法、基于点的方法的结果比较。

基于卷积神经网络的方法能够取得较高的姿态重构精度。而基于点的方法(如Pointnet和本文方法)由于需要在雷达采样过程中进行点的离散化,会丢失雷达图像中的一些细节,导致精度相对差一些。由于本文方法引入了金字塔分组模块,可以获得人体轮廓的多个感受野信息,因此重构误差小于Pointnet

穿墙场景的姿态重构精度明显低于自由空间,主要原因是墙体材料通常是非均匀介质,补偿算法在现实中难以精确补偿,导致成像结果散焦;墙体遮挡也会造成信噪比损失。

卷积神经网络的输入是三维雷达图像,通常具有更多网络参数,且计算成本更高。基于点的网络在数据处理时使用CFARPFS将高维雷达图像转换成低维点集,适用于轻量级操作(如一维卷积)进行特征提取。结果表明本文所提出的模型具有良好的检测性能和实时性。

作者还列举了一些实验结果,表明该方法适用于常见的静止或移动动作。