Radio Frequency-based Human Perception.
基于光学系统的人体感知是目前应用最广泛的人体感知技术,但它只在视距条件下有效,并且在低能见度、恶劣天气等环境中无法适用,且需要处理的数据量很大,另外在隐私保护性上也存在漏洞。在这些特殊场景中,非接触式的无侵害性的具备人体感知功能的传感器系统更符合人们的实际需求。
射频信号 (Radio Frequency, RF) 是一种电磁波,其频率范围从30 kHz到3000 GHz。与光学频率范围的电磁波(如可见光)不同,射频信号具有独特的性质,使其成为特殊场景下的人体感知的有效工具。随着软硬件技术的发展和信号处理技术的成熟,射频系统(即雷达)的研制成本已降低,且雷达本身具有不受光照环境、非视距等因素制约的全时段、全天候的工作特点,因此可以弥补光学系统在人体感知应用中的不足。
射频人体感知(RF-based Human Perception)又称为可见光谱外的人体感知(perception beyond the visible spectrum),是指使用雷达系统进行人体感知应用。雷达系统向检测环境中发射电磁波信号,照射人体目标,并接收反射信号用于执行下游任务。与光学系统相比,雷达系统可以在低能见度等特殊环境中工作,并且可以提供更好的隐私保护性。在特定频段工作的雷达系统还可以穿透墙壁等非金属障碍物,从而实现隐蔽场景下的人体感知。
根据发射信号的工作频段不同,射频人体感知方法可以细分为基于毫米波雷达的方法、基于WiFi阵列的方法与基于穿墙雷达的方法。
- 基于毫米波雷达的方法:工作频段30-300GHZ,人体目标被视为散射体,可以捕获细粒度的人体细节,如
- 基于WiFi阵列的方法:工作频段2.4-5GHZ,人体目标被视为反射体,可以通过深度学习技术学习人体统计信息,如
- 基于穿墙雷达的方法:工作频段0-3GHZ,超宽带穿墙雷达系统可用于非接触式穿墙人体感知,如。
1. 基于毫米波雷达的方法
毫米波(millimeter Wave,mmWave)雷达通常工作在相对较高的频率段(30-300 GHz),具有毫米尺度的空间分辨率。这些系统发射的信号波长相当于人体表面的粗糙度,因此人体目标被视为散射体,可以进一步感知反射目标的轻微不规则性,实现高精度的人体表面精细成像或同时获取目标的速度和距离信息,从而在捕获人体细节方面添加更多细粒度信息。
虽然这些基于毫米波雷达的方法可以准确地对人体表面成像,但它们对障碍物的穿透性很弱,因此无法检测被墙壁等障碍物遮挡的人体目标。此外这些系统的检测范围和目标数量有限(通常仅为单目标设计),系统成本较高且体积庞大。
⚪ mm-Pose
- (arXiv1911) mm-Pose: Real-Time Human Skeletal Posture Estimation using mmWave Radars and CNNs
mm-Pose是一套利用77GHz毫米波雷达实时检测和跟踪人体姿态骨骼的系统。作者并有直接使用三维数据立方体,而是构造了新的信号表示:将雷达反射点投影到深度-方位平面和深度-高度平面,并将两个坐标值和归一化的反射功率作为通道信息。具有两个分支的卷积神经网络分别接收之前提到的两个方向的投影数据。网络输出为人体的25个关节点的空间坐标。
⚪ radarSRNN
- (Digital Signal Processing, 2019) Human motion recognition exploiting radar with stacked recurrent neural network
作者提出了一种使用雷达采集的人类运动时间序列进行人体运动识别的方法。该方法采用LSTM构成的stacked RNN提取序列特征,并进行自动运动分类。利用原始雷达数据的光谱图作为网络输入,利用时变多普勒信号和微多普勒信号进行人体运动识别。
网络由两层LSTM层叠加组成,网络的输入是雷达光谱图,使用具有多个LSTM层的堆叠RNN结构提取动态运动信号,输出层输出了每个运动类别的概率。
⚪ ITL
- (IEEE TGRS, 2020) Human Motion Recognition With Limited Radar Micro-Doppler Signatures
本文提出了一种基于实例的迁移学习(ITL)方法,使用有限的雷达微多普勒信号进行人体运动识别,减轻了收集和标注大量雷达信号的负担。
ITL的流程如图所示。首先设计了一个基于卷积神经网络的模型MNet,并在源数据集上进行预训练。其次设计相关源数据选择(CSDS)算法,从源域中提取部分实例,作为目标域数据的补充。最后设计自适应协同微调(ACFT)算法使用目标数据集和补充的源数据对MNet进行微调。
⚪ 1-D-DAN
- (IEEE GRSL 2021) Radar-Based Human Activity Recognition With 1-D Dense Attention Network
1-D-DAN用于基于微多普勒雷达的人类活动识别。该网络使用了专门为雷达光谱图设计的一维注意力机制,包括时间注意力分支和频率注意力分支;在该机制中还引入了可以充分利用网络特征的密集注意力操作。
2. 基于WiFi阵列的方法
WiFi阵列工作在较低频率段,由于电磁波信号的物理特性,这些设备通常具有较低的成像空间分辨率,因此单个雷达回波中携带的人体信息可能是不完整的。最近的方法试图通过深度学习技术从WiFi阵列获取的数据中学习人体的统计信息。
由于WiFi阵列的工作频段为2.4-5 GHz,带宽通常为20 MHz,较差的距离向分辨率与障碍物穿透性限制了人体感知的精度;且不可能直接从WiFi信号中截取人体的二维或三维像素,因此无法识别高精度以及远距离的人体目标。
⚪ RF-Pose
- (CVPR 2018) Through-Wall Human Pose Estimation Using Radio Signals
本文提出了一种使用WiFi信号穿过墙壁遮挡进行人体姿态估计的方法RF-Pose。使用具有两个天线阵列的WiFi系统,产生水平热图(反射信号在平行于地面的平面上的投影)和垂直热图(反射信号在垂直于地面的平面上的投影)。
由于人类无法直接标注WiFi热图,作者使用OpenPose视觉模型进行跨模态监督:在训练时系统同步使用WiFi热图和RGB图像作为输入,使用光学监督从射频数据中抽取姿态信息;测试时网络只使用射频数据进行姿态估计。
⚪ RF-Pose3D
- (SIGCOMM 2018) RF-Based 3D Skeletons
RF-Pose3D是一套使用射频信号构建具有$14$个关节点的3D人体骨骼重构系统,使用多天线FMCW结构,包括一个发射天线和两个垂直的接收天线,该系统主要由三部分构成:
- 卷积神经网络CNN:该模块接收人体反射的射频信号,并使用卷积网络推断人体的3D骨骼。由于射频信号具有空间和时间的$4$维信息,将4D卷积分解为两个平面和一个时间轴上的3D卷积的组合。
- 区域提议网络RPN:为估计场景中所有人的骨骼,需要一个模块将每个个体的信号分离;使用一个深度神经网络放大来自特定个体的射频信号并将其与来自其他个体的信号分离。
- 多相机子系统:网络训练需要标记数据;使用了由12个相机组成的系统,获取人体三维骨骼的位置。具体地,每个相机使用OpenPose从图像中提取二维骨骼,通过计算创建三维骨骼。
⚪ RF-Avatar
- (ICCV 2019) Through-Wall Human Mesh Recovery Using Radio Signals
RF-Avatar是一种使用射频信号进行人体网格估计的方法。作者首先开发了一套在三维空间中检测和跟踪多人的射频系统,为每个个体生成运动轨迹;然后从检测到的轨迹中生成身体网格。
模型框架参考了Mask-RCNN模型,由两部分组成。轨迹提议网络(TPN)从输入的四维射频信号(三维空间+时间)中提取人体的运动轨迹;轨迹卷积神经网络(TCNN)从提取的轨迹特征中预测SMPL人体模型的参数。SMPL参数可以分解为与时间无关的形状向量和与时间相关的关节角。
此外作者设计了一种数据驱动的姿态和动力学判别器(PDD),将预测的三维关节角度序列作为输入,旨在将其与真实的人体姿态和动力学数据区分开。
⚪ TWPIRT-MMEDP
- (arXiv1904) Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
作者提出了使用射频信号在视觉遮挡的视频中重建具有15个关键点的人体姿态。模型采用学生-教师网络,使用光学相机和RF阵列天线同时收集视频帧和RF数据,教师网络从视频帧中生成每帧的人体姿态骨骼,学生网络从RF数据中预测相同类型的骨骼(使用CNN从RF数据中提取空间特征,使用RPN从特征中检测场景中所有人,使用LSTM在多个时间步长上聚集信息)。
⚪ Person-in-WiFi
- (arXiv1904) Person-in-WiFi: Fine-grained Person Perception using WiFi
Person-in-WiFi是一种使用1D传感器(即现成的WiFi天线)实现人体感知任务的方法。作者分别使用包含3个天线的标准WiFi路由器作为发射天线和接收天线,以2.4GHz为中心划分了30个电磁频率,即信号在接收天线上会产生30种不同的接收模式以感知不同尺度的物体。
作者使用一台固定到接收天线的RGB相机收集视频信号,并人工制作标签。对于人体图像分割的标签,使用Mask R-CNN生成分割热图SM。对于姿态估计的标签,使用Openpose生成关节点热图JHMs和部位亲和场PAFs。
网络的输入张量尺包含5个样本。将其通过上采样调整尺寸,再通过残差卷积、U-Net得到更丰富的特征图,再根据任务需求进行下采样,生成用于图像分割的SM和用于姿态估计的JHMs和PAFs。
⚪ RF-Action
- (arXiv1909) Making the Invisible Visible: Action Recognition Through Walls and Occlusions
RF-Action是一个端到端的神经网络模型,可以在遮挡和恶劣照明条件下检测人类目标的行为。模型将射频信号作为输入,生成三维人体骨架作为中间表示,并识别多人随时间的动作和交互。
动作检测模型有三个模块:
- 基于注意力的特征学习网络: 从每个骨架序列中提取高层次的时空特征。
- 多提案模块:提取提案,每个提案对应于行动开始和结束的时间窗口。多提案模块由两个提案子网络组成:一个用于生成单人行动的提案,另一个用于两人互动。
- 根据生成的提案来裁剪和调整相应的隐特征,并将每个裁剪的动作片段输入到分类网络中。分类网络首先通过执行双向分类来细化时间提案,以确定该持续时间内是否包含动作。然后预测相应的动作类别。
⚪ WiPose
- (MobiCom 2020) Towards 3D Human Pose Construction Using WiFi
WiPose是一套利用WiFi信号重构3D人体姿态的系统。该系统将人体骨骼的先验知识引入重构过程中,从WiFi信号中提取通道状态信息CSI作为输入,从而捕捉三维空间中的运动情况,并采用LSTM和平滑损失构造姿态骨骼。系统使用VICON光学系统收集数据并进行人工标注,从而为训练提供人体关节点坐标标签。
⚪ RF-ReID
- (arXiv2004) Learning Longterm Representations for Person Re-Identification Using Radio Signals
RF-ReID使用射频信号进行ReID任务。Wi-Fi频率范围内的射频信号能够穿过衣服并反射人体,从而提取人体的固有特征,如身体大小或形状,而这些特征在长期时间段内相对稳定。
RF-ReID模型使用射频tracklet作为输入。tracklet使用边界框描述了水平和垂直热图中人体反射的射频轨迹,每个射频tracklet对应一个人体目标。该模型使用一个特征提取网络从tracklet中提取特征,然后通过一个可学习的层次注意力模块聚合时间信息以生成特征图。
此外作者提出了一个多任务学习框架和一个环境判别器。除了预测目标的身份外,该框架通过强制模型学习的特征包含足够的信息来预测人体的三维姿态骨骼。环境判别器通过对抗学习强制特征与当前环境无关,与特征提取网络共同训练。
⚪ TGUL
- (WACV 2022) Unsupervised Learning for Human Sensing Using Radio Signals
TGUL是一种轨迹引导的无监督学习方法,该方法通过基于雷达的模块探测目标并跟踪他们的轨迹,在任何时刻放大包含目标的检测区域,并消除其他物体的反射信号,在该区域内应用无监督训练损失。作者探讨了两种适用于射频信号的自监督任务:
- 通过预测无监督学习从射频信号中学习人体特征表示;
- 通过对比无监督学习从射频信号中学习人体特征表示。
3. 基于穿墙雷达的方法
穿墙雷达(Through-Wall Radar,TWR)系统发射宽频带低功率脉冲信号,不仅具有较大距离向分辨率和较强抗干扰能力,还能够在较宽的检测区域中捕捉丰富的三维人体信息,扩展了人体感知的应用场景。
其中具有厘米量级距离向分辨率的超宽带穿墙雷达系统以其测距精度高、穿透障碍物能力强、目标分辨能力高和反隐身能力好等优点,在非接触式穿墙人体感知领域体现出巨大潜力。
⚪ UDA-MDHMC
- (IEEE GRSL 2018) Unsupervised Domain Adaptation for Micro-Doppler Human Motion Classification via Feature Fusion
本文提出了一种用于微多普勒分类的无监督域适应方法。使用运动捕捉数据库MOCAP作为源数据集,为了提取域不变的特征,融合了三种特征,包括卷积神经网络中的浅层特征、经验特征和统计特征。将这些特征融合后,使用k最近邻分类器,对七种人类活动进行分类。
⚪ ADA-MDHAC
- (IEEE GRSL 2019) Unsupervised Adversarial Domain Adaptation for Micro-Doppler Based Human Activity Classification
本文提出了一种使用微多普勒信号进行人类活动分类的域适应方法,主要关注从仿真到真实世界的域适应。首先使用运动捕捉(MOCAP)数据库生成模拟的微多普勒数据,用于训练卷积神经网络。然后引入一个域判别器处理卷积网络的特征提取部分,用于区别仿真数据和真实数据。通过对抗训练,将在仿真数据中训练的卷积网络推广到真实数据中,并在微多普勒分类中的准确率超过现有的方法。
⚪ SCGRNN
- (Neurocomputing, 2020) Segmented convolutional gated recurrent neural networks for human activity recognition in ultra-wideband radar
分段卷积门控循环神经网络(SCGRNN)使用超宽带雷达的微多普勒光谱图进行人体活动识别。该模型首先通过卷积操作提取光谱图的分段特征,再用GRU沿时间轴对特征图进行编码,从而实现检测任意长度光谱图中的人体活动。
⚪ TWHPR-UWB
- (Remote Sensing 2021) Through-Wall Human Pose Reconstruction via UWB MIMO Radar and 3D CNN
作者为超宽带(UWB) MIMO雷达设计了一套3D人体姿态重构方法。首先使用UWB MIMO雷达捕获人体信息。 然后使用目标检测方法锁定目标位置,采用反向投影(BP)算法构造三维图像。 最后将处理后的三维图像为输入,通过三维CNN模型重建人体目标的三维姿态。
⚪ UWB-Pose
- (IEEE AWPL 2021) Efficient Through-wall Human Pose Reconstruction Using UWB MIMO Radar
本文提出了一种基于超宽带多输入多输出雷达的穿墙人体姿态重构网络UWB-Pose,首先使用雷达系统构建人体的3D雷达图像,并将雷达图像转换为离散的3D点,通过设计一个轻量级的网络,从输入点数据中提取人体特征,并将特征转换为三维姿态坐标。
⚪ UWB-Pose
- (IEEE GRSL 2021) Through-Wall Human Motion Recognition Based on Transfer Learning and Ensemble Learning
本文提出了一个基于迁移学习和集成学习的多雷达协同人体运动识别模型。将预训练的ResNeXt网络迁移到基于多雷达的运动识别任务中,解决了训练样本较少的问题;在不提高模型复杂度的情况下提高识别精度,并降低了超参数的数量。在单一视角下的模型准确率较低,采用多雷达协同工作的方法,通过集成学习进一步提高识别精度。
⚪ 扩展阅读:
- A Survey of Handy See-Through Wall Technology:(IEEE2020)一篇关于穿墙系统原理与应用的综述。
- 3D Imaging of Moving Targets for Ultra-wideband MIMO Through-wall Radar System:(IET RSN2020)使用UWB MIMO雷达进行三维运动目标成像。