Person re-identification by multi-channel parts-based CNN with improved triplet loss function

通过多通道基于部位的卷积神经网络和改进的三元组损失函数实现人体重识别.

跨摄像机的人体重识别仍然是一个具有挑战的问题，尤其是当摄像机之间没有重叠的观测区域。本文提出一种多通道的基于部位的卷积神经网络模型，并且结合改善的三元组损失函数来进行最终的人体重识别。

多通道的基于部位的卷积神经网络模型是由多个通道构成的，可以联合的学习全局身体特征和局部部位特征。主要包括：一个全局卷积层、一个全身卷积层、四个身体部位卷积核、四个通道维度全连接层和一个输出全连接层。

Triplet Loss是最常用的度量学习损失，它为每一个样本$x$选择一个正样本$x^+$和一个负样本$x^-$，使得正样本对之间的距离比负样本对之间的距离小于margin值$\epsilon$。

\[\max(0, D[f_{\theta}(x),f_{\theta}(x^+)] -D[f_{\theta}(x),f_{\theta}(x^-)] + \epsilon)\]

三元组损失没有约束anchor和positive的距离，可能导致属于同一个类别的样本可能构成一个大的聚类簇，并且具有较大的类内距离。Improved Triplet Loss在Triplet Loss的基础上约束正样本对的距离不超过$\beta < \alpha$：

\[\max(0, D[f_{\theta}(x),f_{\theta}(x^+)] -D[f_{\theta}(x),f_{\theta}(x^-)] + \alpha) \\ + \max(0, D[f_{\theta}(x),f_{\theta}(x^+)] - \beta)\]