使用卷积神经网络实现穿墙雷达成像的人体姿态重构.
- paper:Human Posture Reconstruction for Through-the-Wall Radar Imaging Using Convolutional Neural Networks
1. 背景介绍
穿墙雷达回波信号的人类可解释性较差,且成像结果的空间分辨率较低,这使得直接在原始穿墙雷达数据中识别并标注人体姿态的相关标签(如关节点的空间坐标)是非常困难的。本文引入跨模态学习技术来解决基于穿墙雷达系统的人体姿态估计的数据标注问题,并设计了一个基于卷积神经网络的穿墙雷达人体姿态重构模型。
2. 方法介绍
(1)跨模态学习
在基于穿墙雷达系统的人体姿态估计方法中,神经网络的训练通常遵循监督学习框架。标准的监督学习数据传播过程如图a所示。将输入数据$x$输入神经网络,得到预测结果$y$。同时,应提供数据对应的标签\(\hat{y}\)。通过损失函数测量输出结果与标签之间的差异,进一步计算更新梯度,然后通过反向传播算法对网络权重进行更新。由于神经网络的性能通常与数据集的大小呈正相关,因此监督学习是一种数据贪婪的学习方法,即依赖大量预标注的数据标签对。
然而直接为穿墙雷达数据集标注真实标签是相当困难的,即使是人工标记光学图像也需要大量的时间和资源。由于雷达回波或雷达图像相较于光学图像对人类视觉理解不友好,因此从雷达数据中逐一标注人体目标的各个关节点几乎是不可能的,这导致无法直接为雷达数据集提供大量可靠的样本标签。
跨模态学习的目的是将从一种数据模态中提取的知识转移到另一种数据模态中,以避免特征学习的困难和对某种数据模态的过度依赖。跨模态学习的数据传播过程如图b所示。在相同的实验环境中同时采集两个模态的数据\((x,\hat{x})\)。为了实现依赖于数据的预测过程,额外引入一个预训练模型来处理跨模态数据\(\hat{x}\),进行相同任务的结果预测。由于该预训练模型已经在大量的基准数据集上进行了训练,因此预测结果\(\hat{y}\)精度高、鲁棒性强,可以作为原数据$x$预测的伪标签,并进一步计算损失和梯度来更新网络权重。
由于深度学习技术在计算机视觉领域取得了巨大的进步,已有方法在海量数据中进行了预训练,能够从光学图像中直接提取可靠的人体关节点等姿态信息,因此可以使用光学系统辅助雷达系统进行跨模态的数据标注。同时采集光学数据和雷达数据,由于这两种数据是包含相同信息的两种不同的数据模态,因此来自光学数据的知识可以作为雷达数据的跨模态监督。完整的跨模态数据标注流程如图所示,使用穿墙雷达和光学相机协同采集数据,通过计算机视觉方法从采集的光学图像中提取出准确可靠的人体姿态信息,作为雷达数据对应的姿态标签。
(2)网络结构设计
本文提出的基于卷积神经网络的模型如图所示。模型的输入在两个独立的通道中同时采集:穿墙雷达图像和光学图像。模型结构主要由预测网络和监督网络两部分组成。监督网络充当教师;它接收光学图像作为输入,并输出被监督的人体骨骼,这些骨骼由关键点热图表示并用作伪标签。预测网络作为学生;它接收相应的穿墙雷达图像,并预测与监督信号相近的热图。训练完成后,预测网络可以直接从穿墙雷达图像中预测出关键点热图,无需监督网络的辅助。
预测网络的目标是将穿墙雷达图像转换成与光学图像具有相同空间形状的预测人体关键点热图。穿墙雷达图像由大小为$(I, J, K)$的规则三维体素表示,每个维度分别表示距离、高度和方位。光学图像的大小表示为$(C, H, W)$,每个维度表示通道(对于RGB图像,$C = 3$),高度和方位。将人体关键点数定义为$P$,则预测的关键点热图大小为$(P, H, W)$。热图的每个通道都是对应人体关键点的置信概率分布。按照COCO关键点格式预定义$P = 14$个人类关键点。
预测网络是通过编码器-解码器结构实现的。编码器由多层Conv3d叠加而成,接收穿墙雷达图像作为输入,提取具有丰富空间和语义信息的隐藏特征。由于预测的热图是二维的,编码器压缩距离维度,同时维持高度和方位维度的大小。解码器由几个Conv2d堆叠,然后将隐藏特征解码成预测的热图,给出了每个关键点出现在每个空间位置的置信度。
监督网络的目标是从光学图像中提取监督的人体关键点热图。有监督的热图与预测的热图大小相同,将被用作监督的伪标签。由于计算机视觉界在人体姿态重建任务中取得了巨大的成功,因此有很多方法可以从光学图像中提取准确、鲁棒的关键点热图。Openpose是其中最流行的方法之一。训练时选择L2损失来约束两个热图之间所有元素的均方误差。
3. 实验分析
本实验使用自研的穿墙雷达有4个发射机和8个接收机。模拟了0.5 ~ 1.5 GHz的伪随机编码信号作为发射信号。雷达可生成距离6米、高度4米、方位8米的监控区域三维图像。TWRI信号采用后向Kirchhoff成像算法计算,离散成$(80,60,60)$体素。
训练数据集是在没有墙壁遮挡的环境下收集的。人体目标站在远离雷达的地方摆出各种姿势,如站立、伸展和踏步。在雷达上安装光学摄像机,同时采集TWRI信号和光学图像。采集帧率设置为3hz,共采集10800对样本。这些样本进一步按9:1的比例随机分为训练集和验证集。测试数据集是在墙壁遮挡的环境下收集的。为了验证方法的鲁棒性,在两种不同遮挡材料中采集信号。一种是厚度为20厘米、相对介电常数为7.0;另一个厚度为24 cm、相对介电常数为6.0。
在验证集上计算所提方法和基线方法Openpose的不同OKS阈值下的AP度量,并将其绘制在下图中。所提方法和基线的mAP指标分别为74.5%和78.2%。结果表明,该方法的结果整体与基线接近。从图中可以看出,所提方法在较低的OKS阈值(例如低于0.75)下的性能优于基线。这是因为TWRI信号通常比光学信号携带更多的信息,如距离信息,这有助于模型更好地提取姿态特征。相比之下,所提方法在更高的OKS阈值(例如高于0.75)下比基线执行得更差。这是因为TWRI信号的空间分辨率较低,无法精确定位关键点。
然后关注不同的人体关键点并比较性能。具体来说,比较了所提方法和基线在不同的关键点(包括头、胸、肩、肘、腕、髋、膝和脚踝)的mAP。结果列于下表。评估结果表明,所提方法在定位靠近人体中心的关键点(如胸部和臀部)时优于基线,但在定位四肢(如手腕和脚踝)时性能较差。这是因为身体中心部位的反射面积更大,与肢体部位相比,动作相对较慢,肢体部位更难被雷达捕捉。
在有墙壁遮挡的环境下,基于计算机视觉的姿态重建方法完全失败,但所提方法仍然可以从TWRI信号中获得良好的姿态结果。虽然墙体会使雷达信号功率衰减,但承载姿态信息的信号结构得以保持。由于卷积层的空间不变性,该模型可以从墙壁遮挡的TWRI信号中提取出与无墙壁遮挡情况相似的姿态特征。下图提供了几个定性结果。结果表明,该方法在不同的墙壁遮挡情况下都有良好的效果。
为了了解模型在预测过程中关注TWRI信号的哪个位置,使用引导反向传播来生成显著性图。显著性图与输入TWRI信号保持相同的大小,TWRI信号由常规3-D体素表示。值越高意味着对结果的贡献更大。由于3-D显著性图难以直接可视化,将显著性图分别沿着距离、高度和方位轴投影,滤除较低的强度值,并与相应的预测结果一起显示,如图所示。结果显示一个人在墙后伸展。显著性图中的亮区有助于预测关键点热图,它看起来就像一个真实的人体。这意味着模型确实从3-D信号中学习了人类的姿势信息,而不是无意义的映射。