微调视觉基础模型用于植物表型分析.

TL; DR

视觉基础模型通常是在来自互联网的图像或文本上进行预训练的,因此它们在特定领域(如植物表型)的表现受到质疑。本文研究了视觉基础模型对植物表型任务的适应性。作者对三个植物表型任务(叶片计数、实例分割和疾病分类)进行了实验,对MAEDINODINOv2三个基础模型进行了微调,同时评估两种不同的微调方法:LoRA和解码器微调。实验结果表明,视觉基础模型可以有效地适应多种植物表型任务,其性能与专门为每种任务设计SoTA模型相似。但是在某些情况下,微调的基础模型比特定任务的SoTA模型执行得稍微差一些。

1. 背景介绍

植物表型分型旨在定量评估植物的结构和功能属性,这些属性在现代农业领域至关重要。然而大多数模型都是为特定任务设计的:虽然它们精通于执行训练任务,但当应用于其他任务时,它们的性能会下降。这种通用性的缺乏使得应用于表型图像的深度学习模型的实现和部署效率低下,因为需要为每个特定任务设计、开发和训练新的模型。

近年来基础模型的发展为解决这一问题提供了一条有希望的途径。基础模型是具有大量可训练参数的模型,并在广泛的数据上进行预训练,有可能很容易适应各种新的下游任务。这些基础模型有两个主要的限制。首先,基础模型通常是在一般领域数据上训练的,缺乏专门化和特定于领域的知识;其次,基础模型是巨大的和复杂的,对如此大的模型进行微调非常耗时,并且需要硬件基础设施。

本研究探索了是否有可能通过有效地微调预训练的基础模型来解决不同的植物表型任务,重点研究了基于ViT的三种基础模型:MAEDINODINOv2,使用微调解码器或LoRA来评估这些模型在以下植物表型相关任务上的性能,包括叶片计数、实例分割和疾病分类。

2. 方法介绍

本文评估的基础模型包括MAEDINODINOv2,因为MAEDINO是在同一数据集(ImageNet-1k)上使用不同的训练方法进行预训练的,而DINODINOv2是在不同的数据集上使用相同的方法进行预训练的(DINOv2是在一个更大的数据集LVD-142M上进行预训练的)。

本文在三个基本的植物表型任务上进行了广泛的实验:叶片计数,分割和疾病分类。

本研究中评估的模型由两个主要组成部分组成,一个预训练的主干和一个特定任务的解码器。

在实验中为每个模型实现了两种不同的微调配置,即微调解码器和LoRA。在这两种配置下,ViT b网络的预训练权值都被冻结。

3. 实验分析

(1)叶片计数

叶片计数的评估指标为计数差(DiC),计数绝对差(|DiC|),均方误差(MSE)和百分比一致性(PA)。

结果表明,使用LoRA可以帮助将基础模型推广到叶片计数任务,因为LoRA的性能始终优于DT,可能能够减轻数据稀缺和领域转移的影响。此外由于DINOv2是在一个比DINOMAE更大的预训练数据集上进行预训练的,这表明通过增加精心选择的样本预训练源的规模可以提高基础模型的适应性。

(2)叶片分割

叶片分割的评估指标为所有叶子之间的最佳DICE分数(BestDice),前景掩模上的DICE (FgBgDice),叶子计数差异(DiffFG)和叶子计数绝对差异(|DiffFG|)。

结果表明,将MAE用于叶片实例分割的结果略差于SOTA模型,而微调后的DINO模型的效果则差得多。由于解码器和LoRA添加的参数数量之间的严重不平衡,LoRA的性能可能不会超过DT。可视化结果也表明被评估的模型可能会遗漏叶或茎。

(3)叶片分类

叶片分类的评估指标为分类准确率。

结果表明,LoRA持续提高叶片病害分类的模型适应性。在评估的模型中,DINOv2-LoRA表现最好,性能略低于SoTALoRA显示了解决类别不平衡的潜力。

(4)实验总结

在评估的基础模型中,DINOv2-LoRA在叶片计数和病害分类上的表现最好,在各任务上与SoTA模型的表现接近。在叶子分割中,MAE优于DINO,接近SoTA水平。一般来说,每个基础模型都可以有效地适应所有这三种任务,并具有可接受的性能。

在微调方法方面,LoRA在叶片计数和疾病分类方面始终优于解码器微调。此外,LoRA显示了缓解与数据稀缺、领域转移和类不平衡相关的问题的潜力。然而在叶子分割中,LoRA无法超越解码器微调来进一步改进基础模型,这可能是由于分割解码器比LoRA引入了更多的参数。