Radio Frequency-based Human Perception.

基于光学系统的人体感知是目前应用最广泛的人体感知技术，但它只在视距条件下有效，并且在低能见度、恶劣天气等环境中无法适用，且需要处理的数据量很大，另外在隐私保护性上也存在漏洞。在这些特殊场景中，非接触式的无侵害性的具备人体感知功能的传感器系统更符合人们的实际需求。

射频信号 (Radio Frequency, RF) 是一种电磁波，其频率范围从30 kHz到3000 GHz。与光学频率范围的电磁波（如可见光）不同，射频信号具有独特的性质，使其成为特殊场景下的人体感知的有效工具。随着软硬件技术的发展和信号处理技术的成熟，射频系统（即雷达）的研制成本已降低，且雷达本身具有不受光照环境、非视距等因素制约的全时段、全天候的工作特点，因此可以弥补光学系统在人体感知应用中的不足。

射频人体感知(RF-based Human Perception)又称为可见光谱外的人体感知(perception beyond the visible spectrum)，是指使用雷达系统进行人体感知应用。雷达系统向检测环境中发射电磁波信号，照射人体目标，并接收反射信号用于执行下游任务。与光学系统相比，雷达系统可以在低能见度等特殊环境中工作，并且可以提供更好的隐私保护性。在特定频段工作的雷达系统还可以穿透墙壁等非金属障碍物，从而实现隐蔽场景下的人体感知。

根据发射信号的工作频段不同，射频人体感知方法可以细分为基于毫米波雷达的方法、基于WiFi阵列的方法与基于穿墙雷达的方法。（部分工作简写为标题首字母）

基于毫米波雷达的方法：工作频段30-300GHZ，人体目标被视为散射体，可以捕获细粒度的人体细节，如mm-Pose, HMRER-SRNN, ITL, 1-D-DAN。
基于WiFi阵列的方法：工作频段2.4-5GHZ，人体目标被视为反射体，可以通过深度学习技术学习人体统计信息，如RF-Pose, RF-Pose3D, RF-Avatar, TWPIRT-MMEDP, Person-in-WiFi, RF-Action, WiPose, RF-ReID, TGUL。
基于穿墙雷达的方法：工作频段0-3GHZ，超宽带穿墙雷达系统可用于非接触式穿墙人体感知，如UDA-MDHMC, ADA-MDHAC, SCGRNN, TWHPR-UWB, UWB-Pose, TWHMR-TLEL, HPR-TWRI, UHCE-TWRI, TWHPR-CMLSSL, RPSNet, MIMDSN, RadarFormer。

1. 基于毫米波雷达的方法

毫米波（millimeter Wave，mmWave）雷达通常工作在相对较高的频率段（30-300 GHz），具有毫米尺度的空间分辨率。这些系统发射的信号波长相当于人体表面的粗糙度，因此人体目标被视为散射体，可以进一步感知反射目标的轻微不规则性，实现高精度的人体表面精细成像或同时获取目标的速度和距离信息，从而在捕获人体细节方面添加更多细粒度信息。

虽然这些基于毫米波雷达的方法可以准确地对人体表面成像，但它们对障碍物的穿透性很弱，因此无法检测被墙壁等障碍物遮挡的人体目标。此外这些系统的检测范围和目标数量有限（通常仅为单目标设计），系统成本较高且体积庞大。

⚪ mm-Pose

(arXiv1911) mm-Pose: Real-Time Human Skeletal Posture Estimation using mmWave Radars and CNNs

mm-Pose是一套利用77GHz毫米波雷达实时检测和跟踪人体姿态骨骼的系统。作者并有直接使用三维数据立方体，而是构造了新的信号表示：将雷达反射点投影到深度-方位平面和深度-高度平面，并将两个坐标值和归一化的反射功率作为通道信息。具有两个分支的卷积神经网络分别接收之前提到的两个方向的投影数据。网络输出为人体的25个关节点的空间坐标。

⚪ HMRER-SRNN

(Digital Signal Processing, 2019) Human motion recognition exploiting radar with stacked recurrent neural network

作者提出了一种使用雷达采集的人类运动时间序列进行人体运动识别的方法。该方法采用LSTM构成的stacked RNN提取序列特征，并进行自动运动分类。利用原始雷达数据的光谱图作为网络输入，利用时变多普勒信号和微多普勒信号进行人体运动识别。

网络由两层LSTM层叠加组成，网络的输入是雷达光谱图，使用具有多个LSTM层的堆叠RNN结构提取动态运动信号，输出层输出了每个运动类别的概率。

⚪ ITL

(IEEE TGRS, 2020) Human Motion Recognition With Limited Radar Micro-Doppler Signatures

本文提出了一种基于实例的迁移学习(ITL)方法，使用有限的雷达微多普勒信号进行人体运动识别，减轻了收集和标注大量雷达信号的负担。

ITL的流程如图所示。首先设计了一个基于卷积神经网络的模型MNet，并在源数据集上进行预训练。其次设计相关源数据选择(CSDS)算法，从源域中提取部分实例，作为目标域数据的补充。最后设计自适应协同微调(ACFT)算法使用目标数据集和补充的源数据对MNet进行微调。

⚪ 1-D-DAN

(IEEE GRSL 2021) Radar-Based Human Activity Recognition With 1-D Dense Attention Network

1-D-DAN用于基于微多普勒雷达的人类活动识别。该网络使用了专门为雷达光谱图设计的一维注意力机制，包括时间注意力分支和频率注意力分支；在该机制中还引入了可以充分利用网络特征的密集注意力操作。

2. 基于WiFi阵列的方法

WiFi阵列工作在较低频率段，由于电磁波信号的物理特性，这些设备通常具有较低的成像空间分辨率，因此单个雷达回波中携带的人体信息可能是不完整的。最近的方法试图通过深度学习技术从WiFi阵列获取的数据中学习人体的统计信息。

由于WiFi阵列的工作频段为2.4-5 GHz，带宽通常为20 MHz，较差的距离向分辨率与障碍物穿透性限制了人体感知的精度；且不可能直接从WiFi信号中截取人体的二维或三维像素，因此无法识别高精度以及远距离的人体目标。

⚪ RF-Pose

(CVPR 2018) Through-Wall Human Pose Estimation Using Radio Signals

本文提出了一种使用WiFi信号穿过墙壁遮挡进行人体姿态估计的方法RF-Pose。使用具有两个天线阵列的WiFi系统，产生水平热图（反射信号在平行于地面的平面上的投影）和垂直热图（反射信号在垂直于地面的平面上的投影）。

由于人类无法直接标注WiFi热图，作者使用OpenPose视觉模型进行跨模态监督：在训练时系统同步使用WiFi热图和RGB图像作为输入，使用光学监督从射频数据中抽取姿态信息；测试时网络只使用射频数据进行姿态估计。

⚪ RF-Pose3D

(SIGCOMM 2018) RF-Based 3D Skeletons

RF-Pose3D是一套使用射频信号构建具有$14$个关节点的3D人体骨骼重构系统，使用多天线FMCW结构，包括一个发射天线和两个垂直的接收天线，该系统主要由三部分构成：

卷积神经网络CNN：该模块接收人体反射的射频信号，并使用卷积网络推断人体的3D骨骼。由于射频信号具有空间和时间的$4$维信息，将4D卷积分解为两个平面和一个时间轴上的3D卷积的组合。
区域提议网络RPN：为估计场景中所有人的骨骼，需要一个模块将每个个体的信号分离；使用一个深度神经网络放大来自特定个体的射频信号并将其与来自其他个体的信号分离。
多相机子系统：网络训练需要标记数据；使用了由12个相机组成的系统，获取人体三维骨骼的位置。具体地，每个相机使用OpenPose从图像中提取二维骨骼，通过计算创建三维骨骼。

⚪ RF-Avatar

(ICCV 2019) Through-Wall Human Mesh Recovery Using Radio Signals

RF-Avatar是一种使用射频信号进行人体网格估计的方法。作者首先开发了一套在三维空间中检测和跟踪多人的射频系统，为每个个体生成运动轨迹；然后从检测到的轨迹中生成身体网格。

模型框架参考了Mask-RCNN模型，由两部分组成。轨迹提议网络(TPN)从输入的四维射频信号（三维空间+时间）中提取人体的运动轨迹；轨迹卷积神经网络(TCNN)从提取的轨迹特征中预测SMPL人体模型的参数。SMPL参数可以分解为与时间无关的形状向量和与时间相关的关节角。

此外作者设计了一种数据驱动的姿态和动力学判别器(PDD)，将预测的三维关节角度序列作为输入，旨在将其与真实的人体姿态和动力学数据区分开。

⚪ TWPIRT-MMEDP

(arXiv1904) Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm

作者提出了使用射频信号在视觉遮挡的视频中重建具有15个关键点的人体姿态。模型采用学生-教师网络，使用光学相机和RF阵列天线同时收集视频帧和RF数据，教师网络从视频帧中生成每帧的人体姿态骨骼，学生网络从RF数据中预测相同类型的骨骼（使用CNN从RF数据中提取空间特征，使用RPN从特征中检测场景中所有人，使用LSTM在多个时间步长上聚集信息）。

⚪ Person-in-WiFi

(arXiv1904) Person-in-WiFi: Fine-grained Person Perception using WiFi

Person-in-WiFi是一种使用1D传感器（即现成的WiFi天线）实现人体感知任务的方法。作者分别使用包含3个天线的标准WiFi路由器作为发射天线和接收天线，以2.4GHz为中心划分了30个电磁频率，即信号在接收天线上会产生30种不同的接收模式以感知不同尺度的物体。

作者使用一台固定到接收天线的RGB相机收集视频信号，并人工制作标签。对于人体图像分割的标签，使用Mask R-CNN生成分割热图SM。对于姿态估计的标签，使用Openpose生成关节点热图JHMs和部位亲和场PAFs。

网络的输入张量尺包含5个样本。将其通过上采样调整尺寸，再通过残差卷积、U-Net得到更丰富的特征图，再根据任务需求进行下采样，生成用于图像分割的SM和用于姿态估计的JHMs和PAFs。

⚪ RF-Action

(arXiv1909) Making the Invisible Visible: Action Recognition Through Walls and Occlusions

RF-Action是一个端到端的神经网络模型，可以在遮挡和恶劣照明条件下检测人类目标的行为。模型将射频信号作为输入，生成三维人体骨架作为中间表示，并识别多人随时间的动作和交互。

动作检测模型有三个模块：

基于注意力的特征学习网络: 从每个骨架序列中提取高层次的时空特征。
多提案模块：提取提案，每个提案对应于行动开始和结束的时间窗口。多提案模块由两个提案子网络组成：一个用于生成单人行动的提案，另一个用于两人互动。
根据生成的提案来裁剪和调整相应的隐特征，并将每个裁剪的动作片段输入到分类网络中。分类网络首先通过执行双向分类来细化时间提案，以确定该持续时间内是否包含动作。然后预测相应的动作类别。

⚪ WiPose

(MobiCom 2020) Towards 3D Human Pose Construction Using WiFi

WiPose是一套利用WiFi信号重构3D人体姿态的系统。该系统将人体骨骼的先验知识引入重构过程中，从WiFi信号中提取通道状态信息CSI作为输入，从而捕捉三维空间中的运动情况，并采用LSTM和平滑损失构造姿态骨骼。系统使用VICON光学系统收集数据并进行人工标注，从而为训练提供人体关节点坐标标签。

⚪ RF-ReID

(arXiv2004) Learning Longterm Representations for Person Re-Identification Using Radio Signals

RF-ReID使用射频信号进行ReID任务。Wi-Fi频率范围内的射频信号能够穿过衣服并反射人体，从而提取人体的固有特征，如身体大小或形状，而这些特征在长期时间段内相对稳定。

RF-ReID模型使用射频tracklet作为输入。tracklet使用边界框描述了水平和垂直热图中人体反射的射频轨迹，每个射频tracklet对应一个人体目标。该模型使用一个特征提取网络从tracklet中提取特征，然后通过一个可学习的层次注意力模块聚合时间信息以生成特征图。

此外作者提出了一个多任务学习框架和一个环境判别器。除了预测目标的身份外，该框架通过强制模型学习的特征包含足够的信息来预测人体的三维姿态骨骼。环境判别器通过对抗学习强制特征与当前环境无关，与特征提取网络共同训练。

⚪ TGUL

(WACV 2022) Unsupervised Learning for Human Sensing Using Radio Signals

TGUL是一种轨迹引导的无监督学习方法，该方法通过基于雷达的模块探测目标并跟踪他们的轨迹，在任何时刻放大包含目标的检测区域，并消除其他物体的反射信号，在该区域内应用无监督训练损失。作者探讨了两种适用于射频信号的自监督任务：

通过预测无监督学习从射频信号中学习人体特征表示；
通过对比无监督学习从射频信号中学习人体特征表示。

3. 基于穿墙雷达的方法

穿墙雷达（Through-Wall Radar，TWR）系统发射宽频带低功率脉冲信号，不仅具有较大距离向分辨率和较强抗干扰能力，还能够在较宽的检测区域中捕捉丰富的三维人体信息，扩展了人体感知的应用场景。

其中具有厘米量级距离向分辨率的超宽带穿墙雷达系统以其测距精度高、穿透障碍物能力强、目标分辨能力高和反隐身能力好等优点，在非接触式穿墙人体感知领域体现出巨大潜力。

⚪ UDA-MDHMC

(IEEE GRSL 2018) Unsupervised Domain Adaptation for Micro-Doppler Human Motion Classification via Feature Fusion

本文提出了一种用于微多普勒分类的无监督域适应方法。使用运动捕捉数据库MOCAP作为源数据集，为了提取域不变的特征，融合了三种特征，包括卷积神经网络中的浅层特征、经验特征和统计特征。将这些特征融合后，使用k最近邻分类器，对七种人类活动进行分类。

⚪ ADA-MDHAC

(IEEE GRSL 2019) Unsupervised Adversarial Domain Adaptation for Micro-Doppler Based Human Activity Classification

本文提出了一种使用微多普勒信号进行人类活动分类的域适应方法，主要关注从仿真到真实世界的域适应。首先使用运动捕捉(MOCAP)数据库生成模拟的微多普勒数据，用于训练卷积神经网络。然后引入一个域判别器处理卷积网络的特征提取部分，用于区别仿真数据和真实数据。通过对抗训练，将在仿真数据中训练的卷积网络推广到真实数据中，并在微多普勒分类中的准确率超过现有的方法。

⚪ SCGRNN

(Neurocomputing, 2020) Segmented convolutional gated recurrent neural networks for human activity recognition in ultra-wideband radar

分段卷积门控循环神经网络(SCGRNN)使用超宽带雷达的微多普勒光谱图进行人体活动识别。该模型首先通过卷积操作提取光谱图的分段特征，再用GRU沿时间轴对特征图进行编码，从而实现检测任意长度光谱图中的人体活动。

⚪ TWHPR-UWB

(Remote Sensing 2021) Through-Wall Human Pose Reconstruction via UWB MIMO Radar and 3D CNN

作者为超宽带(UWB) MIMO雷达设计了一套3D人体姿态重构方法。首先使用UWB MIMO雷达捕获人体信息。然后使用目标检测方法锁定目标位置，采用反向投影(BP)算法构造三维图像。最后将处理后的三维图像为输入，通过三维CNN模型重建人体目标的三维姿态。

⚪ UWB-Pose

(IEEE AWPL 2021) Efficient Through-wall Human Pose Reconstruction Using UWB MIMO Radar

本文提出了一种基于超宽带多输入多输出雷达的穿墙人体姿态重构网络UWB-Pose，首先使用雷达系统构建人体的3D雷达图像，并将雷达图像转换为离散的3D点，通过设计一个轻量级的网络，从输入点数据中提取人体特征，并将特征转换为三维姿态坐标。

⚪ TWHMR-TLEL

(IEEE GRSL 2021) Through-Wall Human Motion Recognition Based on Transfer Learning and Ensemble Learning

本文提出了一个基于迁移学习和集成学习的多雷达协同人体运动识别模型。将预训练的ResNeXt网络迁移到基于多雷达的运动识别任务中，解决了训练样本较少的问题；在不提高模型复杂度的情况下提高识别精度，并降低了超参数的数量。在单一视角下的模型准确率较低，采用多雷达协同工作的方法，通过集成学习进一步提高识别精度。

⚪ HPR-TWRI

(IEEE GRSL 2021) Human Posture Reconstruction for Through-the-Wall Radar Imaging Using Convolutional Neural Networks

⚪ UHCE-TWRI

(IEEE GRSL 2022) Unsupervised Human Contour Extraction From Through-Wall Radar Images Using Dual UNet

尽管从穿墙雷达图像中可以模糊地识别出人体轮廓，但仍然缺乏有效的无监督人体轮廓提取方法。本文提出了一种基于无监督学习的穿墙雷达人体轮廓提取算法。

所提方法使用Dual UNet模型。编码器UNet接收穿墙雷达图像并将其转换为特征表示，解码器UNet根据特征表示来重构原始图像。在这两种图像之间建立重构损失。为了促进编码器UNet学习对人体轮廓有意义的特征表示，进一步构建平滑的归一化割损失。两个损失以端到端的无监督学习形式进行训练，并通过后处理过程将学习到的特征表示转换为人体轮廓的预测结果。

⚪ TWHPR-CMLSSL

(IEEE GRSL 2022) Through-Wall Human Pose Reconstruction Based on Cross-Modal Learning and Self-Supervised Learning

在穿墙雷达人体姿态估计任务中，由光学系统提供的跨模态伪标签并不总是可靠的，尤其是对于携带三维空间信息的人体关节点坐标，往往含有由于复杂姿态、遮挡或欠定问题本身带来的噪声。本文提出一种基于自监督学习的穿墙雷达人体姿态标签校正算法，用以增强从穿墙雷达图像中估计人体三维关节点的准确性。

模型训练从具有噪声的伪标签出发，通过循环学习对伪标签进行逐步校正。校正过程包括标签细化和模型聚合两个步骤。标签细化是指在循环过程中对标签进行校正，并用这些校正的标签训练更鲁棒的网络；模型聚合是指聚合当前网络权重和前面几轮循环过程中的网络权重来推断更可靠的标签。

⚪ RPSNet

(IEEE TGRS 2022) Recovering Human Pose and Shape From Through-the-Wall Radar Images

一个完整的人体参数化模型通常是由人体姿态参数和形状参数共同决定的，因此实现穿墙雷达人体感知的关键是从穿墙雷达数据中同时提取人体关节点与轮廓信息。本文设计了一种基于多任务学习的穿墙雷达人体关节点定位与轮廓提取模型RPSNet，

RPSNet采用硬权重共享的多任务网络结构设计，通过分析Hourglass模型和UNet模型的拓扑结构，设计了一个通用的特征提取网络，从雷达图像中提取人体姿态信息，并以多任务学习的形式同时学习人体轮廓与关节点特征。

⚪ MIMDSN

(IEEE IoTJ 2023) Through-Wall Human Pose Estimation by Mutual Information Maximizing Deeply Supervised Nets

从穿墙雷达图像中直接估计三维人体姿态是一个欠约束问题。为了缓解这种欠约束问题的不适定性，本文提出了穿墙雷达成像分辨率约束的卷积神经网络深度设计方法与为异构网络结构设计的深度监督技术，以跨模态异构网络深度监督的形式从穿墙雷达图像中提取三维人体关节点。

穿墙雷达成像分辨率约束的卷积神经网络深度设计方法从考虑雷达图像物理特性的角度指导卷积神经网络堆叠卷积层数量的选择。为异构网络结构设计的深度监督范式在跨模态学习过程中引入了深度监督技术。

所设计的基于互信息最大化的穿墙雷达人体关节点定位模型将跨模态监督建立在网络隐藏层的特征上，受信息论启发，最大化特征和伪标签之间的互信息，以增强特征的判别性，进一步提高网络的收敛性和性能。

⚪ RadarFormer

(IEEE TNNLS 2023) RadarFormer: End-to-End Human Perception With Through-Wall Radar and Transformers

RadarFormer是一种基于自注意力的穿墙雷达端到端人体感知方法，该方法能够绕过雷达成像算法，实现端到端的信号处理。作者提供了一个建设性的证明，表明在某些假设下，使用自注意力模型从雷达回波信号中提取的特征与使用卷积层从雷达图像中提取的特征具有相同的特征表示能力。

RadarFormer是一种编码器-解码器结构的快慢时间自注意力模型。编码器接收雷达回波并提取包含丰富全局语义信息的特征表示，解码器从全局表示中生成所有目标的特征，并进一步解码为不同下游人体姿态估计任务的预测结果。其中快慢时间自注意力首先沿雷达慢时间维度提取历史回波中的时序特征，然后沿雷达快时间维度提取当前回波中的空间特征。

⚪ 扩展阅读：

A Survey of Handy See-Through Wall Technology：(IEEE2020)一篇关于穿墙系统原理与应用的综述。
3D Imaging of Moving Targets for Ultra-wideband MIMO Through-wall Radar System：(IET RSN2020)使用UWB MIMO雷达进行三维运动目标成像。