DODA:农业中目标检测领域自适应的扩散模型.
TL; DR
本文提出了一种名为DODA(Diffusion for Object-detection Domain Adaptation in Agriculture)的统一框架,利用扩散模型为多种农业场景生成高质量、特定领域的检测数据。DODA结合了外部域嵌入和改进的布局到图像(L2I)方法,允许它在没有额外训练的情况下为新域生成高质量的检测数据。本文在全球麦穗检测数据集GWHD上展示了DODA的有效性,其中对DODA生成的数据进行微调的检测器在多个领域产生了显著的改进(最大+15.6 AP)。
1. 背景介绍
在农业领域,目标检测面临诸多挑战,如环境多样性、作物生长阶段差异、采集设备和时间的不同等。这些因素导致现有检测模型难以在不同农业环境中实现稳定的性能。
领域自适应(Domain Adaptation, DA)是迁移学习的一个分支,旨在提高模型在未见过的领域中的泛化能力。通过域自适应,模型可以利用源领域的知识来适应目标领域,从而减少对目标领域大量标注数据的依赖。
现有方法大多依赖于大量标注数据,且在处理农业领域的复杂变化时效果不佳。此外,传统方法通常只关注单一领域的自适应,缺乏跨领域的通用性。这就提出了一个问题:如何利用扩散模型为特定领域生成高质量的检测数据?
2. 方法介绍
DODA的目标是通过将领域信息集成到L2I扩散中来实现领域感知图像的生成。首先将布局表示为图像,然后使用预训练的布局编码器提取特征作为域嵌入,最后通过特征加法融合整合到L2I扩散中,作者将这种方法称为LI2I (layout-image-to-image)。
边界框可能会彼此重叠,为了使布局编码器区分实例,将重叠的实例分配给不同的颜色通道。具体地,将每个图像中边界框的重叠关系表示为邻接矩阵,并使用下列算法对这些框进行排列。
布局编码器具有简单的结构,由一堆时间相关的残差层和下采样层组成。每一残差层的输出为$f_{res}(a, t) + a$,这里$a$是上一层的输出,$t$是时间步长。
作者观察到,浅层的U-Net层会产生有噪声的局部特征。随着层的依赖,特征变得越来越抽象和整体,逐渐形成图像的整体布局。因此建议将布局嵌入与更深层(U-Net解码器中的层)的特征合并,以更好地传达布局信息。
3. 实验分析
作者采用全球小麦检测数据集GWHD进行实验,GWHD数据集是最大的农业检测数据集之一,专门用于近距离麦穗检测。它由47个子域组成,每个子域都有一定的差异,如位置、成像流程、采集时间、小麦发育阶段和小麦品种。GWHD数据集分为训练集、验证集和测试集,分别包含18、11和18个子域。
用COCO预训练初始化一个YOLOX-L,在GWHD训练集上训练它,并将其作为基线。对于训练集每个域,使用DODA生成一个包含200张图像的数据集对YOLOX-L进行一轮微调。结果表明,利用DODA合成的特定领域数据对检测器进行微调后,这些领域的识别率提高了,表明所提方法有效地帮助检测器适应农业领域的新场景,弥补了受限的人工注释与复杂多变的农业环境之间的差距。
作者进一步在COCO数据集上进行了实验,以证明所提方法的有效性。COCO包含多个类别,因此作者改进了布局编码方法,同一类别的目标以相同的色调描绘,但亮度较弱,并按面积降序绘制每个目标的边界框。
结果表明,LI2I方法在可控性(mAP)方面明显优于所有以前的L2I方法,同时保持高图像质量(FID)和多样性(IS)。此外与将布局表示为文本的方法(LayoutDiffusion, Layoutdiffuse, GeoDiffusion)相比,布局图像克服了基于文本的布局的限制,允许更精确和详细的控制,包括以前具有挑战性的小目标。