通过多层次注意力域自适应网络进行跨区域的油棕树计数和检测.

Introduction

对较大空间范围的棕榈树种植区域进行准确的评估,具有重要的经济和生态意义。其主要面临的问题是空间区域范围较大、不同区域的地质特征具有较大差异。本文提出了一种域自适应的跨区域油棕榈树的计数和检测方法:多层次的注意力域自适应网络(Multi-level Attention Domain Adaptation Network,MADAN)

MADAN由$4$个过程组成:

  1. 首先,使用基于批-实例归一化网络(batch-instance normalization network,BIN)的特征提取器,集成了BatchNormInstanceNorm,提高了模型的泛化能力。
  2. 其次,引入多层次的注意力机制(multi-level attention mechanism ,MLA),包括特征级的注意力和熵级的注意力,增强了卷积的平移不变性。
  3. 然后,设计了最小熵正则化方法(minimum entropy regularization,MER),通过把熵级的注意力值分配给熵惩罚,增加了分类器预测的置信度。
  4. 最后,采用了基于滑动窗口的预测和基于交并比的后处理方法获得最终的检测结果。

实验在三种不同的大规模油棕榈种植区卫星图像上进行,包括消融实验和六个迁移实验。

遥感图像由于获取条件不同(如传感器、季节和环境不同),导致不同图像之间的分布不同和域偏移(domain shift),如下图中图像A和图像B是两种不同的卫星图像。假设图像A是有足够训练标签的源域(source domain),图像B是没有训练标签的目标域(target domain)。这两类图像在不同类别的直方图上差异明显。当模型在图像A中获得较高的检测精度,当它直接应用到没有任何标签的图像B数据集时,检测器的性能会急剧下降。

域适应(domain adaptation,DA)可以帮助模型适应新的数据域,而不依赖于大量标签。根据目标域样本的标记情况,DA可分为无监督DA(UDA)半监督DA(SSDA)监督DA(SDA)UDA旨在提高源域和目标域之间模型的泛化能力,而不使用目标域的任何标签;SSDA允许模型使用目标域中的少量标记数据和源域中的充足标记数据,从源域学习信息;SDA在目标域使用少量但通常不足以完成任务的标记数据。本文提出的方法属于UDA,只需要源域中的标记数据,在目标域中完全没有标签。

MADAN

记有标注的源域数据集为\(D_S=\{ (x_i^S,y_i^S) \}_{i=1}^{n_S}\),没有标注的目标域数据集为\(D_T=\{ x_i^T \}_{i=1}^{n_T}\),DA旨在降低$D_S$和$D_T$的分布差异。上图展示了MADAN的网络结构,网络由基于批-实例归一化特征提取部分(BIN-based feature extractor)、基于注意力的对抗学习部分(attention-based adversarial learning)、最小熵正则化部分(minimum entropy regularization)和基于交并比的后处理部分(IOU based post-processing)四部分组成。

Ⅰ BIN based feature extractor

这部分能够提高模型的泛化能力(generalization capacity)。源域数据和目标域数据都可以作为网络的输入,输入尺寸是$17 \times 17$,这部分网络由$5$层卷积层、$1$层池化层和$3$层全连接层组成,每层卷积层后使用一层BatchNorm和一层InstanceNorm以增强模型的泛化能力,再加一层ReLU激活函数。BatchNorm能够加速模型的收敛,但会使卷积网络容易受到不同图像中的外观变化的影响。InstanceNorm能够消除每一个实例自身的影响,使网络具有针对图像外观和视觉的不变性。

Ⅱ Adversarial learning based multi-level attention mechanism

这部分能够提高模型的可转移性(transferability)。注意力由一个特征级注意力和一个熵级注意力组成,分别是由浅层特征和深层特征通过对抗判别器生成的。特征级注意力被用于对特征图进行加权,熵级注意力被用于熵惩罚。对生成的浅层特征和深层特征额外增加了域损失。

Ⅲ Minimum entropy regularization

这部分能够提高预测结果的置信度(prediction confidence)。除了源域的标签预测损失,使用熵级注意力值构造了最小熵正则化增强了图像的迁移效果。

Ⅳ IOU based post-processing

对测试图像设置重叠率进行切割,预测每一个子图像的类别。作者将滑动窗口尺寸设置为$17 \times 17$,滑动步长设置为$3$像素,使用MADAN依次检测每个窗口。

Experiments

作者选取了马来西亚半岛的三个区域的棕榈树卫星图像,并对比了不同模型在这三个域之间的迁移准确率。