为超宽带MIMO雷达设计的3D人体姿态重构方法.

paper：Through-Wall Human Pose Reconstruction via UWB MIMO Radar and 3D CNN
MDPI：link

在这篇论文中作者为超宽带(UWB) MIMO雷达设计了一套3D人体姿态重构方法。首先使用UWB MIMO雷达捕获人体信息。然后使用目标检测方法锁定目标位置，采用反向投影(BP)算法构造三维图像。最后将处理后的三维图像为输入，通过三维CNN模型重建人体目标的三维姿态。

多输入多输出穿墙雷达成像 Multiple-Input Multiple-Output (MIMO) Radar through-Wall Imaging

MIMO雷达系统是指具有多个发射天线(transmitting antennas)和多个接收天线(receiving antennas)的雷达系统。这类系统通常具有更多的等效信道(equivalent channels)，从而获得更大的检测范围和更高的信号增益。

目前，MIMO阵列有两种，即线阵(line array)和面阵(plane array)。线阵可以获得目标的二维信息，如距离-方位(distance-azimuth)信息或距离-高度(distance-height)信息。面阵可以同时获得距离-方位-高度(distance-azimuth-height)信息。

MIMO雷达常用步进变频连续波(stepped frequency continuous wave, SFCW)作为发射信号，这类信号具有更高的传输功率、更好的带宽扩展和更长的工作距离。假设MIMO阵列有$M$个发射天线和$N$个接收天线，共有$MN$个信道，每个信道的雷达回波信号表示如下：

\[S(m,n,k) = \sum_{p}^{P} \sigma_{p}exp(-j2 \pi f_k \tau_{mn,p}) exp(j4 \pi \frac{v_pf_k}{c} \tau_{mn,p})\]

其中$\sigma_{p}$表示空间点$p$的复振幅，$v_p$表示空间点$p$的速度，$f_k$表示第$k$个频率点的频率，$\tau_{mn,p}$表示信号从第$m$个发射天线到达空间点$p$再被第$n$个接收天线接收总计需要的时间(round-trip)。

反向投影(back-projection)算法是常用的时域成像方法，适用于几乎任何天线阵列布局。该算法的基本思想是计算成像区域的一个点与接收和发射天线之间的时间延迟，然后相干叠加所有回波的贡献，以获得图像中该点的相应像素值。通过逐点相干叠加获得成像区域的图像。点$p$的三维成像可以计算为：

\[I(p) = \sum_{mn=1}^{MN} \sum_{k=1}^{K} S(m,n,k)exp(j2 \pi f_k \tau_{mn,p})\]

时延$\tau_{mn,p}$的计算如下：

\[\tau_{mn,p} = \frac{L_{T_{m},1}+L_{T_{m},2}+L_{R_{n},1}+L_{R_{n},2}}{c} + \frac{L_{T_m,w}+L_{R_n,w}}{c/ \sqrt{\epsilon_r}}\]

其中$\epsilon_r$是墙体的相对介电常数。可见墙体厚度和墙体材料会影响延时的计算，并且导致延时相比于没有墙的环境下的时间更长。因此成像后目标的位置将比其实际位置更远一些。实践中通常需要进行墙体补偿(wall compensation)。

Proposed Method

作者提出的系统如上图所示。系统包括训练和应用两个步骤。训练阶段模型接收雷达的3D成像信号将其转换为人体姿态。应用阶段首先在方位-距离平面上进行二维成像，得到检测场景的二维图像。通过CFAR检测、聚类和跟踪获得目标在平面上的位置。之后对目标所在区域进行小规模精细三维成像，得到人体目标的三维图像。将该三维雷达图像输入到训练好的姿态重建网络中，重建人体三维姿态。

作者使用的UWB MIMO系统具有$10$个发射天线和$10$个接收天线。其中10个发射天线位于阵列的左右两侧，10个接收天线位于阵列的顶部和底部两侧，这种天线阵列的布置保证了成像结果具有较低的旁瓣。天线阵的尺寸为60cm×80cm。超宽带雷达以4MHz的步长在1.78~2.78GHz范围内传输SFCW信号，脉冲重复频率设置为10Hz。

这篇文章具有代表性，可以看出目前主流的对雷达信号进行3D姿态估计的方法都是首先对雷达回波信号进行成像，将成像信号输入卷积神经网络预测骨骼坐标，并与人工标记的骨骼标签进行对比。目前方法主要存在以下几个问题：

对回波信号进行成像后使用卷积神经网络。笔者认为成像+卷积神经网络的组合可以被替代，甚至不需要成像，直接从回波信号中也可以估计人体姿态。因为从回波信号到成像的过程中并没有引入新的信息（只是根据人类的先验知识过滤了一些信息），这在一定程度上造成了信息损失。但回波信号存在杂波，需要额外的处理方法。
需要人工标记人体骨骼标签，这是监督学习最大的挑战。能否自动地进行标签构造，或者使用弱监督、无监督的方法进行学习，也是值得思考的问题。
目前的方法都是基于人体骨骼坐标的姿态估计。当前的姿态估计方法有另一种趋势，即基于模型的估计。这类方法首先根据人类的先验知识构造一个通用的人体结构，再学习不同的人特有的姿态和形状信息。将这类模型方法引入姿态估计，也是有意义的。