通过对偶UNet实现穿墙雷达图像的无监督人体轮廓提取.
1. 背景介绍
跨模态数据标注方法一定程度地缓解了穿墙雷达数据的标注困难,但是在实践中部署跨模态数据标注系统仍然会引入大量开销。由于采集无标签的穿墙雷达数据相对比较容易,因此有必要研究以无监督的方式从未标记的穿墙雷达图像中直接获取人体姿态信息的方法。
无监督学习的目的是在没有人为干预的情况下学习感兴趣的数据特征。目前大多数图像无监督学习方法都是为光学图像设计的,为雷达图像设计的无监督学习方法的相关研究较少。尽管从穿墙雷达图像中可以模糊地识别出人体轮廓,但仍然缺乏有效的无监督人体轮廓提取方法。本文提出了一种基于无监督学习的穿墙雷达人体轮廓提取算法。
2. 方法介绍
这项工作使用UNet模型作为图像处理的卷积神经网络模型。UNet模型是计算机视觉领域中一种流行的图像分割方法,强大的特征提取能力得益于对称结构和可学习的上采样操作。UNet模型采用由下采样路径和上采样路径组成的对称U形结构。对称结构有助于从图像中获取细粒度的位置信息。下采样路径首先使用卷积层来处理输入图像,然后使用最大池化层来将特征图的空间大小减半并将通道数加倍。上采样路径使用转置卷积层执行相反的操作,即放大特征图并减少通道数。在每个对应的最大池化层和转置卷积层之间建立残差连接,以恢复采样过程中丢失的空间信息。
所提方法使用两个结构同质的UNet模型,一个作为编码器,另一个作为解码器。编码器UNet接收穿墙雷达图像并将其转换为特征表示,解码器UNet根据特征表示来重构原始图像。在这两种图像之间建立重构损失。为了促进编码器UNet学习对人体轮廓有意义的特征表示,进一步构建平滑的归一化割损失。两个损失以端到端的无监督学习形式进行训练,并通过后处理过程将学习到的特征表示转换为人体轮廓的预测结果。本节分别从网络结构设计、损失函数设计与后处理过程三个角度出发,介绍所提基于无监督学习的穿墙雷达人体轮廓提取算法。
(1)网络结构设计
所设计的网络结构如图所示。编码器UNet将穿墙雷达图像映射为紧凑的特征表示,解码器UNet从该特征表示重建原始雷达图像。通过这种对偶学习的形式,编码器UNet在特征表示中存储尽可能多的原始输入信息,使得后续轮廓提取结果可以更好地与输入雷达图像对准。在训练完成之后,解码器UNet被丢弃,编码器UNet的输出通过后处理生成人体轮廓的最终提取结果。
(2)损失函数设计
假设\(\left\{x^{(i)}\right\}^N_{i=1}\)是穿墙雷达图像数据集,$U_{Enc}(\cdot)$和$U_{Dec}(\cdot)$分别代表编码器UNet和解码器UNet,则在原始图像和重构结果之间构建重构损失\(\mathcal{L}_{\text{reco}}\),使用均方误差来测量所有像素之间的差异:
\[\mathcal{L}_{\text{reco}}=\frac{1}{N}\sum_{i=1}^{N}\left\| x^{(i)} - \text{U}_{\text{Dec}}\left(\text{U}_{\text{Enc}}\left(x^{(i)}\right)\right) \right\|^2\]重构损失会使编码器UNet提取的特征表示随机地落入特征空间中的任意位置。为了使特征表示包含充足的人体轮廓信息,需要引入额外的约束。在这项工作中,使用特征表示来构建输入图像的归一化割,将无监督的像素级条件聚类应用于原始图像,作为衡量特征全局分割质量的标准。假设$U$是属于人体轮廓的像素集合,$V$是所有像素的集合。$w_{uv}$和$w_{us}$分别测量轮廓像素$u$与任意像素$v$和非接触像素$s$之间的权重。则归一化割损失\(\mathcal{L}_{\text{ncut}}\)定义如下:
\[\mathcal{L}_{\text{ncut}}=\frac{\sum_{u \in U,s \in V-U}w_{us}}{\sum_{u \in U,v \in V}w_{uv}}\]归一化割可以最大程度地地减少人体轮廓和背景之间的总归一化分离,并最大程度地增加人体轮廓的总归一化关联。然而在构造上述归一化割损失时,需要将固定的阈值应用于特征表示来获得像素集合$U$,该操作是不可微分的,阻碍了梯度传播的过程,并进一步阻碍了该方法的端到端训练。保留特征表示中的概率值,构造上述归一化割损失的平滑版本\(\mathcal{L}_{\text{s-ncut}}\):
\[\begin{aligned} \mathcal{L}_{\text{s-ncut}}&=\frac{\sum_{u \in U,s \in V-U}w_{us}}{\sum_{u \in U,v \in V}w_{uv}} =1- \frac{\sum_{u \in U,s \in U}w_{us}}{\sum_{u \in U,v \in V}w_{uv}} \\ &= 1- \frac{\sum_{u \in V,s \in V}w_{us}p(u)p(s)}{\sum_{u \in U,v \in V}w_{uv}p(u)} \\ &= 1- \frac{\sum_{u \in V,s \in V}w_{us}p(u)p(s)}{\sum_{u \in V}p(u)\sum_{v \in V}w_{uv}} \end{aligned}\]其中权重$w_{uv}$设置为:
\[w_{uv}=\mathbb{1}\left(\left\|P(u)-P(v)\right\|_2 \leq r\right) e^{-\frac{\left\|V(u)-V(v)\right\|_2^2}{\sigma_V^2}-\frac{\left\|P(u)-P(v)\right\|_2^2}{\sigma_P^2}}\]其中$P$和$V$是像素的位置和取值。\(\mathbb{1}\)是示性函数,当条件满足时为1否则为0。其他参数设置$r=5,\sigma_V=10,\sigma_P=4$。通过协同优化重构损失\(\mathcal{L}_{\text{reco}}\)和平滑归一化割损失\(\mathcal{L}_{\text{s-ncut}}\),所提方法可以准确地重构穿墙雷达图像,并学习适用于人体轮廓分割的特征表示。
(3)后处理过程
编码器UNet提取的特征表示可以用作像素级预测。由于缺乏有效的监督,特征表示中不可避免地存在噪声。例如,输入雷达图像中的杂波会干扰目标和背景之间的边界。而缺乏平滑度约束将进一步导致目标轮廓区域的定位精度降低和连通性变差。为了获得细粒度的人体轮廓边界,引入全连通条件随机场(Fully-Connected Conditional Random Field,FC-CRF)作为后处理方法。用于处理二维图像的FC-CRF使用一元势和成对势来构造能量函数:
\[E(z) = \sum_{u} \Phi(u) + \sum_{u,v} \Psi(u,v)\]其中$u$和$v$是特征表示$z$上的像素。一元势采用输出的负对数似然计算:$\Phi(u) = -\log p(u)$。由于轮廓结果不携带颜色信息,因此成对势仅使用高斯核来对像素之间的位置相似性进行建模,鼓励相似的像素分配相同的标签(轮廓或背景):
\[\Psi(u,v)= \lambda e^{-\frac{\left\|P(u)-P(v)\right\|_2^2}{2\theta_{\text{x/y}}^2}}\]其中$P(\cdot)$是像素的位置。设置兼容性$\lambda=10$,标准偏差\(\theta_{\text{x/y}}=10\)。通过后处理过程,特征表示给出了目标的近似轮廓,FC-CRF使边界更清晰,并平滑了背景中的噪声。
3. 实验分析
使用自研穿墙雷达系统构造一个无监督人体轮廓提取数据集。在不同实验场景中采集五个人体目标的数据,雷达系统以1 m的中心高度工作,检测场景的高度向范围为-1 m至1.5 m,方位向范围为-1 m至1 m,距离向范围为0至2 m。采集结果总共包括64800对雷达-光学图像对,采用10折交叉验证进行模型训练与性能评估。将原始三维雷达图像沿着距离向维度求和得到二维雷达图像,并将雷达图像的尺寸调整为$(64, 64)$。通过预训练的UNet模型从光学图像中提取对应的人体轮廓热图,并作为定量评估模型预测结果的标签数据,注意标签数据并不参与模型的训练过程。
所提方法使用的UNet模型的整体结构细节如表所示。数据批量大小和总训练轮数分别设置为8和200。使用AdamW优化器训练模型,权重衰减率设置为0.01。初始学习率设置为$0.001$,每50个训练轮数减少$50\%$。所有实验均在Nvidia RTX3090 GPU上进行加速。
在训练期间是否引入平滑归一化割损失分别对应的重构损失曲线如图所示。从图中可以看出,在没有平滑归一化割损失的情况下,重构损失收敛得更快。当引入平滑归一化割损失后,重构损失降低缓慢且不太稳定。这是因为当引入平滑归一化割损失时,特征表示空间被迫与图像的良好分割结果更加一致,代价是重构原始图像的能力减弱。所提方法在最小化图像差异性和最大化像素总关联之间进行权衡,使得特征表示倾向于提供更好的分割结果。
由于穿墙雷达图像缺乏无监督分割的基准方法,将所提方法与几种常用的无监督光学图像分割方法进行比较,如$k$-means聚类和图分割方法。这些方法使用亮度或纹理信息提取图像局部区域的特征,并将这些特征用于像素级聚类。Ji等人提出恒定信息聚类(Invariant Information Clustering,IIC),这是一种严格基于信息论的无监督图像分割方法。此外在超过1100万张光学图像上进行大规模预训练的开集图像分割算法“分割一切模型”(Segment Anything Model,SAM)也被用于定量评估。为了公平地比较不同方法的性能,使用IoU指标来计算预测结果和标签之间的像素相似性。IoU指标的取值范围为$[0,1]$,值越大表示相似性越强。在验证集上采用不同阈值$[0.5:0.95;0.05]$计算IoU指标,并将结果列于表中。
所提方法的mIoU指标为0.374。考虑到所提方法在整个训练过程中都遵循无监督的训练方式,分割结果是具有竞争力的。传统方法的预测结果与所提方法相比存在明显差距,这是因为卷积神经网络具有强大的特征提取能力,可以从图像中提取空间不变的语义特征,其对特定任务数据集的适应性也超过了其他基于统计的方法。尽管SAM模型在大规模光学图像数据上进行了预训练,由于光学图像与雷达图像具有较大的语义差异,因此将其直接迁移到雷达图像数据集上表现受限。
为了进一步验证所提方法的有效性,分开处理该方法的两个关键组成部分:平滑归一化割损失和FC-CRF。分别丢弃这两个部分对应的IoU曲线如图所示。在没有平滑归一化割损失的情况下,所提方法只关注穿墙雷达图像的重构过程,不能提供潜在的分割特征表示,因此所提方法完全不能提取人体轮廓。在没有FC-CRF的情况下,提取的轮廓将包含噪声,并且无法清楚地确定边界,因此整体性能会有所下降。
所提方法的单目标人体轮廓提取结果如图所示。结果表明所提方法提取了人体躯干相对完整的轮廓,但对于四肢的提取结果较差。由于穿透墙壁的电磁波频率范围是0-3 GHz,在该频段下人体相当于反射体,因此雷达系统采集的目标回波信号通常只包含关于人体四肢子集的信息,在单一信号中可能会错过偏离雷达方向的部分肢体等身体部位。此外,人体躯干附近的部位有较大的反射区域,很容易被雷达捕捉到,而手臂和腿等较小的轮廓细节很容易丢失。当四肢远离躯干时,例如伸展手臂的动作,此时它们很容易在提取结果中被忽略。
所提方法的多目标人体轮廓提取结果如图所示。由于目标之间的多径效应,采集到的雷达回波会受到干扰。此时虽然可以提取人体躯干的主要部分,但一些反射区域较小的躯体部分很难捕捉到,例如手臂的空间位置。并且随着目标数量的增加,如何从有限的信息中以无监督的形式提取更准确的人体轮廓,仍然是一个较为困难的挑战。