Adapting Vision Foundation Models for Plant Phenotyping

微调视觉基础模型用于植物表型分析.

paper：Adapting Vision Foundation Models for Plant Phenotyping

TL; DR

视觉基础模型通常是在来自互联网的图像或文本上进行预训练的，因此它们在特定领域（如植物表型）的表现受到质疑。本文研究了视觉基础模型对植物表型任务的适应性。作者对三个植物表型任务（叶片计数、实例分割和疾病分类）进行了实验，对MAE、DINO和DINOv2三个基础模型进行了微调，同时评估两种不同的微调方法：LoRA和解码器微调。实验结果表明，视觉基础模型可以有效地适应多种植物表型任务，其性能与专门为每种任务设计SoTA模型相似。但是在某些情况下，微调的基础模型比特定任务的SoTA模型执行得稍微差一些。

1. 背景介绍

植物表型分型旨在定量评估植物的结构和功能属性，这些属性在现代农业领域至关重要。然而大多数模型都是为特定任务设计的：虽然它们精通于执行训练任务，但当应用于其他任务时，它们的性能会下降。这种通用性的缺乏使得应用于表型图像的深度学习模型的实现和部署效率低下，因为需要为每个特定任务设计、开发和训练新的模型。

近年来基础模型的发展为解决这一问题提供了一条有希望的途径。基础模型是具有大量可训练参数的模型，并在广泛的数据上进行预训练，有可能很容易适应各种新的下游任务。这些基础模型有两个主要的限制。首先，基础模型通常是在一般领域数据上训练的，缺乏专门化和特定于领域的知识；其次，基础模型是巨大的和复杂的，对如此大的模型进行微调非常耗时，并且需要硬件基础设施。

本研究探索了是否有可能通过有效地微调预训练的基础模型来解决不同的植物表型任务，重点研究了基于ViT的三种基础模型：MAE、DINO和DINOv2，使用微调解码器或LoRA来评估这些模型在以下植物表型相关任务上的性能，包括叶片计数、实例分割和疾病分类。

2. 方法介绍

本文评估的基础模型包括MAE、DINO和DINOv2，因为MAE和DINO是在同一数据集（ImageNet-1k）上使用不同的训练方法进行预训练的，而DINO和DINOv2是在不同的数据集上使用相同的方法进行预训练的（DINOv2是在一个更大的数据集LVD-142M上进行预训练的）。

本文在三个基本的植物表型任务上进行了广泛的实验：叶片计数，分割和疾病分类。

叶片计数和分割数据集采用CVPPP 2017，由A1-A5环境下捕获的植物图像组成，A1、A2和A4包含拟南芥植物的不同突变体，A3由烟草植物组成。数据集的测试集还包含A5，其中的图像是从前面四个域中采样的混合图像。
叶片疾病分类采用Cassava数据集，是在乌干达拍摄的真实世界野外图像的集合，旨在识别木薯叶片中发现的各种疾病。数据集的训练集包括21,397张分辨率为800×600像素的图像，其中每张图像被分类为代表木薯叶片健康状况的五个类别之一：木薯细菌性枯萎病（CBB），木薯褐条病（CBSD），木薯绿斑病（CGM），木薯花叶病（CMD）和健康(H)。测试集包含大约15000张保存在Kaggle上的图片。

本研究中评估的模型由两个主要组成部分组成，一个预训练的主干和一个特定任务的解码器。

主干是使用MAE， DINO或DINOv2预训练的ViT b特征提取器。
叶片计数和疾病分类的解码器是放置在主干上的线性层，用于回归叶片数量或预测疾病类别。
叶子分割的解码器采用ViTDet，由特征金字塔网络生成多尺度特征和Mask RCNN解码器预测实例掩码组成。

在实验中为每个模型实现了两种不同的微调配置，即微调解码器和LoRA。在这两种配置下，ViT b网络的预训练权值都被冻结。

在解码器调优期间，只训练解码器引入的参数。这种设置检查了基础模型的直接适应性，这些模型还没有暴露于特定的植物表型数据集，调整工作最少。
在LoRA调优中，采用LoRA对主干网络进行微调，使LoRA和解码器添加的参数都是可训练的。该配置研究了预训练主干的有效微调是否可以产生更好的性能。

3. 实验分析

（1）叶片计数

叶片计数的评估指标为计数差（DiC），计数绝对差（|DiC|），均方误差（MSE）和百分比一致性（PA）。

结果表明，使用LoRA可以帮助将基础模型推广到叶片计数任务，因为LoRA的性能始终优于DT，可能能够减轻数据稀缺和领域转移的影响。此外由于DINOv2是在一个比DINO和MAE更大的预训练数据集上进行预训练的，这表明通过增加精心选择的样本预训练源的规模可以提高基础模型的适应性。

（2）叶片分割

叶片分割的评估指标为所有叶子之间的最佳DICE分数（BestDice），前景掩模上的DICE (FgBgDice)，叶子计数差异（DiffFG）和叶子计数绝对差异（|DiffFG|）。

结果表明，将MAE用于叶片实例分割的结果略差于SOTA模型，而微调后的DINO模型的效果则差得多。由于解码器和LoRA添加的参数数量之间的严重不平衡，LoRA的性能可能不会超过DT。可视化结果也表明被评估的模型可能会遗漏叶或茎。

（3）叶片分类

叶片分类的评估指标为分类准确率。

结果表明，LoRA持续提高叶片病害分类的模型适应性。在评估的模型中，DINOv2-LoRA表现最好，性能略低于SoTA。LoRA显示了解决类别不平衡的潜力。

（4）实验总结

在评估的基础模型中，DINOv2-LoRA在叶片计数和病害分类上的表现最好，在各任务上与SoTA模型的表现接近。在叶子分割中，MAE优于DINO，接近SoTA水平。一般来说，每个基础模型都可以有效地适应所有这三种任务，并具有可接受的性能。

在微调方法方面，LoRA在叶片计数和疾病分类方面始终优于解码器微调。此外，LoRA显示了缓解与数据稀缺、领域转移和类不平衡相关的问题的潜力。然而在叶子分割中，LoRA无法超越解码器微调来进一步改进基础模型，这可能是由于分割解码器比LoRA引入了更多的参数。