基于互信息最大化深度监督网络的穿墙人体姿态估计.

paper：Through-Wall Human Pose Estimation by Mutual Information Maximizing Deeply Supervised Nets

1. 背景介绍

使用穿墙雷达系统执行三维人体姿态估计任务，需要从穿墙雷达数据中提取人体姿态的三维空间信息；相比于二维人体姿态估计任务，需要额外估计深度信息。然而从穿墙雷达图像中直接估计三维人体姿态是一个欠约束问题。在穿墙雷达系统工作频段中的人体目标被视为反射体，镜面效应导致穿墙雷达回波中存储的三维人体信息不完整。此外，雷达成像过程依赖于反射回波信号在三维空间位置的积累，使其容易受到其他物体的影响。这些问题导致穿墙雷达图像和人体姿态之间的映射关系不唯一且不稳定。为了缓解这种欠约束问题的不适定性，本文通过深度监督技术，把计算机视觉三维人体姿态估计方法中的领域知识，以跨模态异构网络深度监督的形式迁移到穿墙雷达数据中，设计卷积神经网络从穿墙雷达图像中提取三维人体关节点。

2. 穿墙雷达成像分辨率约束的卷积神经网络深度设计方法

卷积层的目的是从输入图像中提取对下游任务有用的图像特征。卷积层的基本单位是卷积核，也叫滤波器。在传统图像处理方法中，图像滤波器算子通常是人工设计的，比如设计高斯滤波器进行噪声过滤，设计Sobel算子进行轮廓提取等等。而卷积层中的滤波器参数是从数据集中学习得到的，可以针对下游任务自适应地学习到最合适的参数。

卷积神经网络堆叠卷积层数量$N$的选择通常是经验的，取决于具体的任务。在使用卷积神经网络处理穿墙雷达图像时，目前还没有统一的设计标准。本文提出了一种穿墙雷达成像分辨率约束的卷积神经网络深度设计方法，从考虑雷达图像物理特性的角度指导卷积神经网络堆叠卷积层数量的选择。

卷积层是一种局部互相关操作，下面以二维卷积层为例。假设输入图像（或特征图）$\boldsymbol{X}\in\mathbb{R}^{H\times W\times C}$，其中$H,W$是图像的高度和宽度，$C$是图像的通道数（对于输入图像指代颜色通道，对于特征图指代深度）。对于一个卷积核$\boldsymbol{K}\in\mathbb{R}^{k\times k\times C}$，在图像上按照光栅扫描顺序滑动，如图所示。当滑动到空间点$p_0$时，该点的输出值通过局部仿射变换计算：

\[\boldsymbol{Y}(p_0) = \sum_{p_n\in\mathcal{R}}\boldsymbol{K}(p_n) \cdot \boldsymbol{X}(p_0+p_n) +b\]

其中$\mathcal{R}=\left[-\lfloor \frac{k}{2} \rfloor,...,\lfloor \frac{k}{2} \rfloor\right]\times \left[-\lfloor \frac{k}{2} \rfloor,...,\lfloor \frac{k}{2} \rfloor\right]$。因此一个二维卷积核共有$k\times k\times C + 1$个参数。

相比于二维卷积层，三维卷积层除了卷积核的空间维度额外增加了一个维度（$\boldsymbol{K}\in\mathbb{R}^{k\times k\times k\times C}$）外，其计算过程与二维卷积层基本相同。

卷积层还具有步长参数和填充参数。步长参数$s$是指卷积核在图像上进行一次滑动时所移动的像素数量，步长$s>1$会导致特征图的空间尺寸变小；填充参数$p$是指在输入图像四周填充的像素数量。若对图像四周填充像素直至卷积核滑动的初始位置恰好与原图像相交，此时输出特征的空间尺寸变大；若对图像四周填充像素直至卷积核滑动的初始中心位置恰好与原图像相交，此时卷积层不改变特征的空间尺寸；若不填充像素，此时输出特征的空间尺寸变小。

卷积神经网络通过叠加多个卷积层，从输入的雷达图像中提取具有空间和语义信息的特征。由于卷积层是一个局部操作，所以每一层特征中的每个位置都是根据前一层的一个局部邻域计算出来的，并且该邻域的大小等于前一层使用的卷积核的大小。卷积神经网络的特征提取能力可以从感受野的角度分析。

感受野定义为每一个输出特征所观察的输入图像中的一个位置区域。虽然单个卷积层的感受野有限，但全局感受野可以通过堆叠更多的层来扩展。假设卷积神经网络堆叠总共有$N$个卷积层，第$i$层使用的卷积核大小为$k_i\times k_i\times k_i$，步长为$s_i$。则第$n$层卷积层的感受野$RF_n$可以递归地计算为：

\[RF_n = RF_{n-1} +(k_n-1)\cdot \prod_{i=1}^{n-1}s_i\]

不妨考虑最坏的情况，即感受野最小的情况。在这种情况下，输出特征捕获输入图像信息的区域非常有限。为每个卷积层设计最小的卷积核大小为$2\times 2\times 2$和步长为$1$。事实上，无论是增加卷积核的大小还是扩大步长，都会使感受野进一步增大。在感受野最小的情况下，堆叠$N$个卷积层的卷积神经网络的感受野计算为：

\[RF_n = N+1\]

考虑到卷积神经网络从穿墙雷达图像中提取特征的任何两个元素都应该在空间上是可区分的，因此卷积神经网络的感受野应该受到雷达系统成像分辨率的约束。如果分辨率太低，雷达图像将很难携带充足的信息，这进一步阻碍卷积神经网络提取有用的特征。下文以雷达阵列的方位向分辨率为例进行讨论，至于在高度向分辨率下的讨论是类似的。

雷达阵列的方位向分辨率由天线阵列、目标与观测孔径之间的垂直距离$R$以及目标与雷达平面法线之间的角度$\theta$决定。当目标位于雷达平面法线上时（$\theta=0°$）, 雷达阵列的方位向分辨率$\delta_a$可以定义为：

\[\delta_a = 0.886\cdot \frac{\lambda_cR_0}{L_{a,T}+L_{a,R}}\]

其中$\lambda_c$是中心频率处的波长，$L_{a,T}$和$L_{a,R}$分别表示发射和接收阵列沿方位向的长度，$R_0$是目标到观测孔径的距离。

如果目标偏离法线一定的角度，雷达的成像分辨率就会降低。在这种情况下，可以通过雷达有效照明孔径的等效投影得到成像分辨率的近似结果。当目标偏离雷达平面法线一定的角度$\theta$时，有效孔径$L_{a,T},L_{a,R}$减小，等效距离$R_0$增大。下图图显示了当目标偏移雷达法线时，这些参数的近似几何关系。

设偏移目标与雷达平面的距离为$R_0^\prime$，雷达的有效孔径投影为$L_{a,T}^\prime,L_{a,R}^\prime$。有以下的几何关系：

\[\begin{aligned} R_0^\prime &= \frac{R_0}{\cos \theta} \\ L_{a,T}^\prime &= L_{a,T}\cos \theta \\ L_{a,R}^\prime &= L_{a,R}\cos \theta \\ \end{aligned}\]

则雷达阵列的方位向分辨率$\delta_a^\prime$修正为：

\[\delta_a^\prime = 0.886\cdot \frac{\lambda_cR_0^\prime}{L_{a,T}^\prime+L_{a,R}^\prime}= 0.886\cdot \frac{\lambda_cR_0}{\left(L_{a,T}+L_{a,R}\right)\cos^2 \theta}\]

假设雷达探测区域的方位向范围为$R_a$，雷达图像沿方位向维度的量化体素数量为$N_a$，则每个体素对应于实际成像区域中的一段物理长度$l_a=R_a/N_a$。可以通过卷积神经网络的感受野来估计卷积神经网络输出特征中的某一特定元素对应雷达图像中的体素数量。根据上一小节的讨论，在最坏情况下堆叠$N$个卷积层的卷积神经网络的感受野为$N+1$，对应于成像区域中的物理长度$l_a^\prime=(N+1)l_a$。直观地说，该长度$l_a^\prime$必须超过雷达的方位向分辨率，否则，网络不能有效地区分成像空间中的任何两个离散点，所提取的特征没有意义。因此有$l_a^\prime \geq \delta_a^\prime$，即

\[N \geq 0.886\cdot \frac{\lambda_cR_0N_a}{\left(L_{a,T}+L_{a,R}\right)R_a\cos^2 \theta}-1\]

上式给出了满足雷达系统分辨率条件下，卷积神经网络应堆叠卷积层数量$N$的一个松弛下界。

以一个实际穿墙雷达系统为例。雷达发射阵列和接收阵列沿方位向的长度分别为$L_{a,T}=$ 1.1m，$L_{a,R}=$ 0.8m，中心频率处的波长为$\lambda_c=$ 0.3m。设定雷达探测空间的方位向范围为-2.5m至2.5m，距离向范围为0至5m，雷达图像的方位向体素数量$N_a=$ 64。当雷达系统的其他参数不变时，绘制目标位于不同空间位置时网络层数$N$的下界曲面如图所示。注意到所使用雷达系统的最大辐射角为60°，因此截断了目标位于距离雷达法线大于60°的情况。直观上，当目标远离雷达平面或目标偏离角度越大，由于雷达分辨率变差，则需要更深的网络才能提供足够的感受野，从而捕捉到有意义的特征信息。在最坏情况下此时所需求的卷积神经网络层数约为25层。

目前卷积神经网络的结构已经得到充分的设计优化，ReLU激活函数等的使用以及ResNet模型提出的残差连接有效地解决了梯度传播时的梯度消失等现象，使得训练深层卷积神经网络不再困难。比如常用的ResNet53模型具有53层卷积层，可以被充分地用来提取雷达图像中的特征。因此通过使用深度卷积神经网络从穿墙雷达图像中提取的特征足以包含有用的信息，可以进一步实现不同细粒度的人体姿态估计任务。并且当目标与雷达之间的位置在一定范围内发生变化时，卷积神经网络仍然可以从雷达图像中提取有用的特征信息，以满足实际需求。考虑到实际应用环境通常比较复杂，上述讨论并不是严格准确的。

3. 为异构网络结构设计的深度监督技术

监督学习过程是将数据输入神经网络的同时提供数据对应的标签，并在输出端根据标签对网络的预测结果构造监督损失，从而实现神经网络的学习过程。对于穿墙雷达三维人体姿态估计等欠约束问题，仅通过在网络输出端构造监督来学习高级语义特征是不充分的。一般来说，深度神经网络的浅层隐藏层倾向于学习低层次的空间特征，而深层隐藏层倾向于学习高层次的语义特征，这些不同层次特征的质量直接决定网络的最终性能。在训练深层神经网络时，如果仅在输出层建立监督信号，不仅会在梯度传播时面临梯度消失和梯度爆炸的风险，而且会导致隐藏层特征学习的透明度和判别性降低。如果能在训练过程中显式地控制隐藏层特征学习的质量，便能够直接影响隐藏层网络权重的更新过程，从而使网络更快地接近较好的特征区域，而不是仅仅依靠输出层的逐层反向传播，从而缓解梯度爆炸或消失的风险。

深度监督技术是一种缓解深度神经网络学习过程中的欠约束优化问题的技术手段。除了在输出层构造标签$\tilde{Y}$和预测结果$\hat{Y}$之间的损失函数外，深度监督技术还在网络的部分隐藏层构造特征级深度监督损失，如图a所示。如果网络具有$H$个隐藏层，则把第$h$个隐藏层处的深度监督损失$\mathcal{L}_h$附加到输出层的损失$\mathcal{L}_o$，以构造组合损失：

\[\mathcal{L} = \mathcal{L}_o\left(\tilde{Y}, \hat{Y}\right) + \sum_{h=1}^{H} \alpha_h \mathcal{L}_h\left(\tilde{F}_h,\hat{F}_h\right)\]

其中$\alpha_h$控制第$h$个隐藏层处深度监督损失的重要性。$\tilde{F}_h$和$\hat{F}_h$表示两个网络的第$h$个隐藏层的特征图。深度监督技术可以作为一种特征的正则化方法，从而实现隐藏层的结构风险最小化，能够显著降低测试误差；并且引入深度监督损失通常能够使得网络收敛更快。

然而，使用这种深度监督技术的隐含假设是两个网络具有同质的结构，并且可以在特征之间建立一对一的对应关系，但事实并非总是如此。比如跨模态学习过程，此时两个网络通常用于处理不同模态的数据，因此其网络结构和特征层次具有较大程度的差异，从而导致深度监督损失建立的困难。

本文为异构网络结构设计了一个通用的深度监督范式。在网络的第$h$个隐藏层特征$\hat{F}_h$处的的监督信号不再是相应的特征图，而是由标签$\tilde{Y}$直接提供的，如图b所示。此时总损失函数为：

\[\mathcal{L} = \mathcal{L}_o\left(\tilde{Y}, \hat{Y}\right) + \sum_{h=1}^{H} \alpha_h \mathcal{L}_h\left(\tilde{Y},\hat{F}_h\right)\]

通过合理地设计深度监督损失$\mathcal{L}_h$的形式，能够促使网络获得更加具有判别性的特征提取能力和更稳定的学习收敛过程，从而缓解穿墙雷达三维人体姿态估计任务的欠约束问题。

4. 互信息最大化深度监督网络 MIMDSN

受信息论的启发，这项工作通过最大化隐藏层特征$\hat{F}_h$和伪标签$\tilde{Y}$之间的互信息来构建深度监督损失。互信息$I\left(\tilde{Y},\hat{F}_h\right)$衡量由于已知随机变量$\hat{F}_h$而降低的随机变量$\tilde{Y}$的不确定性。通过最大化两个随机变量之间的互信息，隐藏层特征$\hat{F}_h$将包含尽可能多的关于伪标签$\tilde{Y}$的信息。互信息$I\left(\tilde{Y},\hat{F}_h\right)$定义如下：

\[I\left(\tilde{Y},\hat{F}_h\right)=\mathbb{E}_{p\left(\tilde{Y} , \hat{F}_h\right)}\left[\log \frac{p\left(\tilde{Y} , \hat{F}_h\right)}{p\left(\tilde{Y}\right)p\left(\hat{F}_h\right)}\right]\]

为了简化问题，引入一个条件后验分布$q\left(\tilde{Y} | \hat{F}_h\right)$：

\[\begin{aligned} I\left(\tilde{Y},\hat{F}_h\right)=&\mathbb{E}_{p\left(\tilde{Y} , \hat{F}_h\right)}\left[\log \frac{q\left(\tilde{Y} | \hat{F}_h\right)p\left(\tilde{Y},\hat{F}_h\right)}{q\left(\tilde{Y} | \hat{F}_h\right)p\left(\tilde{Y}\right)p\left(\hat{F}_h\right)}\right] \end{aligned}\]

应用贝叶斯公式和概率的归一化性质，上式进一步化简为：

\[\begin{aligned} I\left(\tilde{Y},\hat{F}_h\right)=&\mathbb{E}_{p\left(\hat{F}_h | \tilde{Y}\right)}\left[\mathbb{E}_{p(\tilde{Y})}\left[\log q\left(\tilde{Y} | \hat{F}_h\right)\right]\right] \\ -& \mathbb{E}_{p\left(\tilde{Y}\right)}\left[\log p\left(\tilde{Y}\right)\right] + \mathbb{E}_{p\left(\tilde{Y} | \hat{F}_h\right)}\left[\log \frac{p\left(\tilde{Y}|\hat{F}_h\right)}{q\left(\tilde{Y} | \hat{F}_h\right)}\right] \end{aligned}\]

注意到上式最后一项为概率分布$p\left(\tilde{Y}|\hat{F}_h\right)$和$q\left(\tilde{Y} | \hat{F}_h\right)$之间的KL散度，满足非负性。因此得到互信息$I\left(\tilde{Y},\hat{F}_h\right)$的一个下界：

\[I\left(\tilde{Y},\hat{F}_h\right)\geq \mathbb{E}_{p\left(\hat{F}_h | \tilde{Y}\right)}\left[\mathbb{E}_{p\left(\tilde{Y}\right)}\left[\log q\left(\tilde{Y} | \hat{F}_h\right)\right]\right] - \mathbb{E}_{p\left(\tilde{Y}\right)}\left[\log p\left(\tilde{Y}\right)\right]\]

注意到对于固定的概率分布$p\left(\tilde{Y}\right)$，上式第二项是一个常数。因此最大化特征$\hat{F}_h$和伪标签$\tilde{Y}$之间的互信息等价于最大化该互信息的一个下界：

\[I\left(\tilde{Y},\hat{F}_h\right)\geq \mathbb{E}_{p\left(\hat{F}_h | \tilde{Y}\right)}\left[\mathbb{E}_{p\left(\tilde{Y}\right)}\left[\log q\left(\tilde{Y} | \hat{F}_h\right)\right]\right]\]

将上式设置为最大化互信息的代理损失。其中后验概率分布$q\left(\tilde{Y} | \hat{F}_h\right)$的形式可以人为指定。比如选取正态分布$\mathcal{N}\left(\tilde{Y};E_h(\hat{F}_h),\sigma_q^2\right)$，其中$E_h(\cdot)$是一个参数化的编码器。则该互信息下界表示为：

\[\begin{aligned} &\mathbb{E}_{p\left(\hat{F}_h | \tilde{Y}\right)}\left[\mathbb{E}_{p\left(\tilde{Y}\right)}\left[\log \mathcal{N}\left(\tilde{Y};E_h\left(\hat{F}_h\right),\sigma_q^2\right)\right]\right] \\&= \mathbb{E}_{p\left(\hat{F}_h | \tilde{Y}\right)}\left[\mathbb{E}_{p\left(\tilde{Y}\right)}\left[\log\frac{1}{\sqrt{2\pi}\sigma_q} e^{-\frac{\left\|\tilde{Y}-E_h\left(\hat{F}_h\right)\right\|^2}{2\sigma_q^2}} \right]\right] \end{aligned}\]

此时最大化互信息的下界相当于最小化L2范数形式的深度监督损失：

\[\begin{aligned} \mathcal{L}_h\left(\tilde{Y},\hat{F}_h\right)=\mathbb{E}_{p\left(\tilde{Y},\hat{F}_h\right)}\left[\left\|\tilde{Y} -E_h\left(\hat{F}_h\right)\right\|_2^2\right] \end{aligned}\]

其中参数化编码器$E_h(\cdot)$可以由任意神经网络拟合。在实践中，后验概率分布$q\left(\tilde{Y} | \hat{F}_h\right)$的形式可以灵活地指定。例如将其设置为拉普拉斯分布，则深度监督损失将具有最小化L1范数形式：

\[\mathcal{L}_h\left(\tilde{Y},\hat{F}_h\right)=\mathbb{E}_{p\left(\tilde{Y},\hat{F}_h\right)}\left[\left\|\tilde{Y} -E_h\left(\hat{F}_h\right)\right\|_1\right]\]

另一方面，对于预测结果$\hat{Y}=\{\hat{y}^{(i)}\}_{i=1}^{N}$与伪标签$\tilde{Y}=\{\tilde{y}^{(i)}\}_{i=1}^{N}$，输出损失$\mathcal{L}_o\left(\tilde{Y}, \hat{Y}\right)$设置为绝对误差函数：

\[\mathcal{L}_o\left(\tilde{Y}, \hat{Y}\right)=\frac{1}{N}\sum_{i=1}^{N}\left\|\tilde{y}^{(i)}-\hat{y}^{(i)}\right\|_1\]

将输出损失$\mathcal{L}_o\left(\tilde{Y}, \hat{Y}\right)$与第$h$个隐藏层的深度监督损失$\mathcal{L}_h\left(\tilde{Y},\hat{F}_h\right)$相结合，可以构造总损失函数作为优化目标。其中重要性权重$\alpha_h$控制不同隐藏层的深度监督损失在总损失函数中的比例。由于不同隐藏层特征的层次和学习难度不同，因此有必要精心选择权重，以避免网络忽视或过度关注某个隐藏层的特征学习。不同的权重取值会对结果产生重大影响，并且多个损失之间的最佳权重设置通常不是固定的。这项工作进一步提出了一种基于后验假设的自适应损失重加权策略，用于对不同隐藏层损失的权重进行动态调整。

由于后验概率分布$q\left(\tilde{Y} | \hat{F}_h\right)$被设置为正态分布，将条件分布$p\left(\tilde{Y} | \hat{F}_h\right)$也设置为正态分布$\mathcal{N}\left(\tilde{Y};E_h(\hat{F}_h),\sigma_h^2\right)$。形式上，这两个条件分布具有相同的均值（由参数化编码器$E_h(\cdot)$编码），但具有不同的方差。如果总共有$H$个隐藏层需要计算深度监督损失，则隐藏层特征的学习过程等价于最大化以下对数似然：

\[\log \prod_{h=1}^H p\left(\tilde{Y} | \hat{F}_h\right) = \sum_{h=1}^H \log \frac{1}{\sqrt{2\pi}\sigma_h}e^{-\frac{\left\|\tilde{Y}-E_h(\hat{F}_h)\right\|_2^2}{2\sigma_h^2}}\]

最大化该对数似然等价于最小化以下损失：

\[\sum_{h=1}^H \frac{\left\|\tilde{Y}-E_h\left(\hat{F}_h\right)\right\|_2^2}{2\sigma_h^2}+\log \sigma_h = \sum_{h=1}^H \frac{\mathcal{L}_h\left(\tilde{Y},\hat{F}_h\right)}{2\sigma_h^2}+\log \sigma_h\]

将上式作为总损失函数中的深度监督损失部分。其中$\sigma_h$用于对每层特征学习的不确定性进行建模。不确定性越小，则该层特征的学习权重较高。重要性权重$\alpha_h=0.5\sigma_h^{-2}$可以判断隐藏层特征的学习难度。对数项$\log \sigma_h$作为惩罚过度不确定性的正则化项。不确定性$\sigma_h$取值应为正，其取值随网络梯度更新一起学习。在实际实现时，为提高数值稳定性，学习目标设置为不确定度的平方对数$s_h=\log \sigma_h^2$，一方面防止分母上出现0，另一方面使得学习结果没有范围约束。

本文设计了一个卷积神经网络从局部三维雷达图像中提取包含人体姿态信息的特征，并将其映射为人体关节点的三维坐标；并设计了简单的参数化编码器编码每一个隐藏层对应后验概率分布$q\left(\tilde{Y} | \hat{F}_h\right)$的方差。用于处理三维穿墙雷达图像的卷积神经网络的设计受穿墙雷达成像分辨率约束的卷积神经网络深度设计方法启发，采用模块化的网络结构，并根据雷达分辨率的限制自适应设置网络深度。整体网络结构如图所示。

所设计卷积神经网络共堆叠$N_m$个模块，每个模块包含一个最大池化层和$N_r$个残差模块。最大池化层对特征进行空间下采样，残差模块提取包含高级语义信息的特征。在每个残差模块中，使用两个三维卷积层进行特征提取，并建立残差连接以保持特征细节并改进梯度传播。此外，在网络的输入端使用三维卷积层进行特征预处理，在网络的输出端使用三维卷积层和全连接层进行人体关节点的坐标回归。网络总共堆叠$2N_mN_r+2$个卷积层，通过调整$N_m$和$N_r$的数量，可以改变网络深度以满足穿墙雷达系统分辨率的要求。实验中设置卷积神经网络堆叠模块数$N_m=4$，每个模块堆叠残差模块数$N_r=3$。将参数化编码器设置为与卷积神经网络的尾部相同的结构。

4. 实验分析

使用自研穿墙雷达系统构造了一个穿墙雷达三维人体姿态估计数据集，在不同场景设置下采集181780对雷达-光学数据对，以8：2的比例进一步随机划分为训练集和验证集，采用五折交叉验证进行模型训练与性能分析。这两个子集在空间信息上是共享的，在时间信息上是互补的，没有数据交叉。光学数据使用Kinect SDK提供的人体关节点作为姿态伪标签。对于每个雷达回波信号，以目标为中心的高度为2.5 m、方位为2 m、距离为2 m的局部三维区域进行成像，生成尺寸为$(64,64,64)$的局部三维雷达图像。

为了评估所提方法的性能，将其与以下几种最先进的基于雷达信号的的三维人体关节点定位方法进行比较，所有方法都是在相同的实验环境下进行训练和评估的。

mm-Pose模型和mPose模型是最近提出的用于毫米波雷达系统的人体关节点定位方法。这两种方法根据生成的高度向-距离向热图和方位向-距离向热图来估计单个人体目标的三维关节点。为适应这些方法的输入格式，将收集的三维穿墙雷达图像沿着相应的维度进行投影，并构造对应的二维雷达图像；
RF-Pose3D模型是一种基于WiFi阵列的多目标关节点定位方法。它部署了两个正交的WiFi线性阵列来收集整个检测区域的三维图像像。为适应该方法的输入格式，并确保成像结果具有相同的成像网格密度，将整个检测区域离散为尺寸为$160\times 160\times 160$的三维体素；
UWB-3DCNN模型直接处理穿墙雷达系统提供的局部三维图像。它采用了与所提方法类似的两阶段检测过程，逐目标预测三维人体关节点；
UWB-Pose模型通过匹配立方体算法和最远点采样方法将三维穿墙雷达图像转换为三维点云，并为点云数据设计人体关节点提取算法。为适应该方法的输入格式，将收集的三维穿墙雷达图像采用相同的步骤转化为点云。

设置每关节平均位置误差（Mean Per Joint Position Error，MPJPE）来评估三维人体关节点坐标的回归精度。MPJPE指标首先计算每个关节点定位的均方误差，然后对所有关节点的误差进行平均，以获得最终的平均坐标定位精度。除了精度指标外，还将参数量和FLOPs指标设置为计算成本指标，以评估方法的计算复杂度。参数量统计模型参数的总数。参数量越大，该方法占用的内存越大，占用的空间资源也越多。FLOPs指标累积方法的算术运算次数。较大的FLOPs意味着方法具有更高的计算复杂度，并且需要更多的计算资源。

对模型训练200个训练轮数。数据批量大小设置为4。使用AdamW优化器训练模型，权重衰减率设置为0.01。初始学习率设置为$0.01$，每50个训练轮数减少$50\%$。所有实验均通过PyTorch实现，并在Nvidia RTX3090 GPU平台上进行加速。

在训练过程中采用五折交叉验证，对应的验证集结果被认为是统计学习过程的有效近似。训练过程中五折交叉验证的平均学习曲线如图所示，包括训练损失和验证损失。从图中可以看出，随着训练迭代次数的增加，训练误差逐渐减小。同时验证误差减小并逐渐收敛到一个小值，这表明模型训练过程不存在过拟合的风险。

所有方法在验证数据集上的总体性能列于表中。结果表明，处理三维雷达图像的方法（如RF-Pose3D模型和UWB-3DCNN模型）与处理二维雷达图像投影的方法（如mm-Pose模型和mPose模型）之间存在性能差距。在实验中，处理二维雷达图像投影的方法的最小定位误差为46.6 mm。尽管这些方法需要较少的计算成本，但它们的性能劣于其他方法。这是因为将三维雷达图像投影到二维的过程中不可避免地丢失了部分空间信息，并阻碍了关节点坐标更准确地定位。

与基于二维雷达图像的方法相比，通过直接处理携带高度向-方位向-距离向空间信息的三维雷达图像，RF-Pose3D模型的性能提高了4.9 mm。然而，由于其直接处理整个检测区域的三维图像，因此RF-Pose3D模型的计算复杂度非常高。UWB-Pose模型通过将三维图像转换为三维点云来尽可能地减少计算成本，实现了高效的三维人体关节点定位，但性能不如直接处理图像的方法。这是因为在将三维雷达图像转换为点云的过程中，离散采样在去除冗余信息的同时会丢弃一些细节。通过基于分治法的两阶段成像过程，UWB-3DCNN模型和所提方法避开了为整个检测区域执行三维成像带来的过度计算负担。所提方法实现了32.9 mm的关节点平均定位误差，这明显优于其他基于雷达信号的方法，这归功于以最大化互信息为导向的深度监督范式。

不同方法在自由空间和穿墙环境中的性能差异列于表中。由于mm-Pose模型和mPose模型基于无法穿透墙壁的毫米波雷达系统，因此不再评估它们的穿墙性能。至于其他方法，由于信号穿透墙壁造成的信噪比损失，穿墙场景中的关节点定位精度明显低于自由空间中的精度。自由空间场景和穿墙场景之间的性能差异可以用来衡量方法的穿透性。与基于WiFi阵列的方法相比，穿墙雷达系统具有较低的工作频率和较宽的工作频带，因此在穿墙环境中具有更强的穿透性和更好的关节点定位性能。所提方法将两种不同环境下的性能差距缩小到8.7 mm，这进一步表明穿墙雷达系统是所有雷达系统中最适合进行穿墙人体姿态估计的系统之一。

下面研究不同目标数量对不同方法的性能影响。与光学系统不同，穿墙雷达系统具有较低的成像空间分辨率，通常适用于低目标密度场景。根据经验，当在$5\times 5$ m的探测区域内有8个以上的目标时，穿墙雷达系统不再适用。因此在实验中不考虑检测区域中同时出现的目标数量超过8的情况。受毫米波雷达探测范围和视角的限制，mm-Pose模型和mPose模型是针对单目标情况设计的；为了进行公平的比较，将它们扩展到多目标检测场景中。RFPose-3D模型采用RPN通过一次前向传播来同时检测整个检测区域中的所有目标。对于RPN检测到的每个目标，该模型会放大到相应的区域裁剪特征，并依次估计关节点坐标。

不同方法在不同目标数量下的MPJPE曲线如图所示。结果表明，随着目标数量的增加，不同方法的关节点定位误差都有不同程度的增加。当目标数量超过6个时，RF-Pose3D模型的性能会严重下降。这是因为受固定成像网格密度的限制，当目标数量增加时，每个目标的成像结果将变得更加稀疏。另一方面，基于分治法的方法性能能够适应目标数量的增加。总体而言，所提方法在所有目标数量的情况下都实现了所有方法中最小的MPJPE指标，这证明了所提方法的优越性，成功地检测到区域中的多个目标，而没有被环境中的多径效应或其他物体所干扰。这也在一定程度上归功于深度监督的特征学习，它衰减了多径的副作用，并聚集了有价值的空间信息。

14个人体关节点（包括头部、胸部、肩部、肘部、腕部、臀部、膝部和踝部）的定位精度列于表中。结果表明，所有方法在定位人体躯干中心附近的关节点（如胸部和臀部）方面通常比定位远离躯干的关节点（如腕部和踝部）更好。当关节点反射面积大且移动缓慢时，更容易被雷达系统捕获；对于面积小、运动灵活的关节点，在反射雷达信号中很容易被忽略。

方法的总预测时间由雷达成像时间和卷积神经网络的推理时间组成。由于GPU的加速，卷积神经网络推理速度相对较快，因此总预测时间主要取决于雷达成像时间。下表报告了RF-Pose3D模型和所提方法的总预测时间。RF-Pose3D模型直接构建和处理整个检测区域的全局三维雷达图像，因此成像时间不会随着目标数量的增加而显著变化，其平均运行时间为3.70秒。对于所提方法，总成像时间包括全局二维成像时间和局部三维成像时间。随着目标数量的增加，总成像时间将逐渐增加。所提方法的总预测时间明显小于RF-Pose3D模型，即使在存在8个目标的情况下总预测时间也缩短了0.58秒。这进一步验证了所提方法在面对不确定的目标数量时更灵活，并且具有较低的平均预测时间。

下图显示了人体关节点定位的定性结果。结果表明所提方法面对不同的环境和目标都能很好地工作，并且可以泛化到未经训练的场景中。例如，当部署在未知的墙体遮挡环境中时，所提方法仍然可以估计准确的人体关节点坐标，这是方法相对于缺乏穿透性的光学方法的优势。在光学系统完全失效的场景中，如低能见度场景，此时很难为雷达图像提供相应的训练标签。尽管所提方法从未在训练过程中看到过这种场景的样本，但已经在足够的训练样本中学习到人体关节点之间的统计约束和相关性。因此可以从未经训练场景收集的穿墙雷达图像中估计人体目标的细粒度姿态信息。

为了进一步研究所提方法的有效性，对方法的三个关键组成部分进行了广泛的消融实验：卷积神经网络的深度、跨模态监督的程度和自适应损失重加权策略的重要性。所有消融实验均在相同的实验环境中进行。

卷积神经网络的深度在一定程度上代表了模型的特征提取能力。所提方法使用堆叠模块的数量$N_m$和每个模块中残差模块的数量$N_r$来控制网络的深度。两个超参数不同取值对应的MPJEP曲线和FLOPs曲线如图所示。具体地，图a显示了固定$N_r=3$时$N_m$不同取值对应的方法性能。添加每个模块后，网络将把特征图的空间大小减半，以提取具有更大感受野和高层次语义信息的特征。结果表明，误差在网络堆叠前几个模块时快速下降，在堆叠第一个至第五个模块之间MPJEP指标总共有非常显著的9.2 mm的降低，但在堆叠第六个模块时略有上升。这可能是因为模块过多会导致特征图的空间维度中存储的信息不足，并且特征在空间位置上的分布会丢失，不利于关节点的定位。另一方面，过大的$N_m$会引入太多的计算成本并减慢推理速度。为了平衡性能和效率，这项工作中设置$N_m=4$。

图b显示了固定$N_m=4$时$N_r$不同取值对应的方法性能。在同一模块内，特征图的空间大小将保持不变。残差模块将沿着通道维度组合并生成特征。结果表明，MPJEP指标在每次堆叠残差模块后逐渐降低，并逐渐达到饱和。这是因为浅层神经网络不足以捕捉人体关节点之间的相关性，不能胜任依赖高级语义信息的人体姿态估计任务。加深网络可以将隐藏在复杂穿墙雷达图像中的人体信息映射到关节点坐标。然而当$N_r$线性增加时，计算成本几乎以相同的趋势增加。这项工作中设置$N_r=3$以避免过多的计算负担。

这项工作将跨模态监督扩展到网络的隐藏层，以增强特征的判别性，并更准确地定位人体关节点。通过最大化特征和伪标签之间的互信息，构建了隐藏层特征的深度监督损失，并将其添加在每个模块的输出端。值得一提的是，在最后一个模块之后建立深度监督损失是无效的，因为实验将参数化编码器设置为与网络尾部相同的结构，使得最后一个模块处的深度监督损失将退化为重复的输出损失。将没有引入深度监督损失的情况设置为基准，分别将在不同隐藏层构建深度监督损失的结果报告在表中。

结果表明，在相对较深的隐藏层（如模块3和模块4的输出）中建立深度监督损失后，方法的性能将显著提高，这表明引入深度监督损失是提高姿态估计可信度的有效手段。本文所设计的深度监督损失可以很容易地扩展到其他基于雷达系统的人体姿态估计方法中。通常与主网络相比，附加的参数化编码器的计算成本可以忽略不计。当在相对较浅的隐藏层（如模块2的输出）中引入深度监督损失时，方法的性能改进往往会饱和。一个可能的原因是浅层特征和姿态伪标签之间存在明显的语义差异。在对深度监督损失建模时，将后验分布理想化为正态分布可能是不合适的。这可以通过进一步调整后验概率的假设形式或采用精心设计的参数化编码器来改进。

为了平衡不同层次的特征学习，本文进一步为深度监督损失设置了一种自适应的损失重加权策略。通过为每个隐藏层的深度监督损失设置可学习的权重，而不是手动指定固定的权重值，网络能够动态调整学习特征的质量，并预测更准确的姿态关节点。下表分别报告了自适应损失重加权策略与固定权重策略（$\alpha_i=1$）对应的MPJPE指标。结果表明，自适应损失重加权策略可以进一步提高关节点定位性能。