使用有限的雷达微多普勒信号进行人体运动识别.
基于雷达的人体运动识别(Human Motion Recognition,HMR)任务受到可用训练数据的多样性(diversity)和容量(volume)限制。为了解决训练数据不足的问题,本文提出了一种基于实例的迁移学习(instance-based transfer learning, ITL)方法,使用有限的雷达微多普勒信号进行人体运动识别,减轻了收集和标注大量雷达信号的负担。ITL由深度学习模型预训练、相关源数据选择和自适应协同微调三部分组成。对包含六个人体目标运动的雷达数据集进行实验,在有限训练样本的情况下能够取得较好的性能。
ITL的流程如上图所示。首先设计了一个基于卷积神经网络的模型MNet,并在源数据集上进行预训练。其次设计相关源数据选择(correlated source data selection ,CSDS)算法,从源域中提取部分实例,作为目标域数据的补充。最后设计自适应协同微调(adaptive collaborative fine-tuning, ACFT)算法使用目标数据集和补充的源数据对MNet进行微调。下面对这三个部分分别介绍:
1. Pretrained MNet
在雷达光谱图中,每个像素表示在某个时间和频率值上的强度值,MNet是为雷达光谱图设计的卷积神经网络,其结构如上图所示。卷积层和最大池化层是网络的基本结构;为提取更多判别信息,引入了空洞卷积和通道注意力机制;全连接层和Softmax函数被用来预测光谱图的标签。
2. Correlated Source Data Selection
模型在源数据集上预训练之后不只使用目标数据来进行微调,而是选择一部分与目标数据高度相似的源数据,将它们和目标数据一起微调网络。由于深度神经网络可以从输入数据中提取具有高级语义信息的特征,因此选用AlexNet作为特征提取器,从雷达信号中提取特征。具体地,使用AlexNet最后一个卷积层的$256$个卷积核作为滤波器,将其作用于源数据集和目标数据集中,将这些特征映射为像素值的直方图$h_i,i=0-255$。
为了获得更具有判别性的特征,将直方图进行细化,避免大部分像素落入同一个位置上。首先对源数据集进行扫描,获得像素的最大值和最小值,并对所有像素值进行归一化。通过迭代自适应地调整直方图中每个位置的宽度(即将区间设置为非均匀),使得所有位置内的像素具有相近的百分比。下图展示了使用第$i$个卷积核从雷达图像中提取的直方图$h_i$;将所有卷积核的直方图相连得到对应雷达信号的特征描述$H=[h_0,…,h_{255}]$。
选用推土机距离(Earth mover’s distance,EMD)作为衡量两个直方图匹配程度的指标,两个直方图之间的EMD越小表明其相关性越高。具体地,对每个目标数据,选择前$K$个相关性最高的源数据作为补充,对预训练的MNet进行微调。下面对这三个部分分别介绍:
3. Adaptive Collaborative Fine-tuning
在微调预训练模型时,使用目标数据和选择的部分源数据。在微调时将注意力放到选择的源数据上能够提高训练效率,因为源数据和目标数据的重要性是不同的。在损失函数中引入重加权操作:
\[L=\sum_{i}^{}L_{cls}(y_i^{(t)},\hat{y}_i^{(t)})+\sum_{j}^{} sin(\frac{\pi}{2}*\frac{w_j}{w_{max}}) L_{cls}(y_j^{(s)},\hat{y}_j^{(s)})\]其中$w_j$为目标数据中选择该源数据的次数,$w_{max}$是其最大值。分类损失$L_{cls}$选用交叉熵损失。随后,在微调时使用自适应搜索方法对每个目标数据$(x_i^{(t)},y_i^{(t)})$选择$N_i$个更接近的源数据,$5$轮之后停止该搜索过程:
\[N_i^{m+1} = \begin{cases} N_i^{m}+\frac{K}{2}, \quad m≤5 \text{ and } y_i^{(t)} ≠\hat{y}_i^{(t)} \\ N_i^{m}+\frac{K}{4}, \quad m≤5 \text{ and } y_i^{(t)} =\hat{y}_i^{(t)} \\ N_i^{m} , \quad \text{ others } \end{cases}\]实验结果如下。该模型能够在雷达数据有限的情况下准确识别人体运动,当每个类别只有$100$个样本时,也能取得较好的识别效果。