Adapting the Segment Anything Model for Plant Recognition and Automated Phenotypic Parameter Measurement

微调SAM模型实现植物识别和表型参数自动测量.

paper：Adapting the Segment Anything Model for Plant Recognition and Automated Phenotypic Parameter Measurement

TL; DR

传统的表型分析依赖于专家通过视觉检查植物的物理特征，这一费时费力的过程严重阻碍了新品种的高效选育。本研究引入了一种高效的植物识别框架，该框架利用了可解释对比语言图像预训练（ECLIP）指导下的分割一切模型（SAM）。这种方法可以应用于各种植物类型，为了提高植物表型测量的准确性，在植物成分骨架提取过程中加入了b样条曲线。实验结果证明了该方法的有效性，表明该框架对大多数测试样本的平均绝对误差小于0.05。这种性能是在不需要模型训练或标记数据的情况下实现的，突出了框架的实用性和效率。

1. 背景介绍

植物表型分析是农业研究中日益重要的一个方面，它涉及对植物性状的详细观察和精确测量，包括生长模式、作物产量以及对干旱、病虫害等各种生物和环境胁迫的抗性。这些特征通常是复杂的，并且可能受到遗传因素和环境条件之间相互作用的影响。植物表型在粮食安全和可持续农业中发挥着重要作用。

以往的研究主要依靠面向图像的测量技术来分析表型性状。这一过程通常需要专家对植物进行物理检查，并记录各种性状的数据，如植物高度、叶面积和颜色。植物表型的最新进展涉及计算机视觉和深度学习的整合，这些方法用深度学习算法对植物图像进行分析，允许准确预测各种植物性状，实现高通量和非破坏性表型测量。

本研究提出了一种基于深度学习的植物分割和表型性状测量的零样本系统，克服了有限的标记数据和复杂的室外环境的挑战。本文的贡献包括：(1)一个预处理模块，以提高数据集图像质量；(2)基于可解释对比语言-图像预训练（ECLIP）算法的基于SAM的零样本分割方法，消除了人工标注数据的需要；(3)利用b样条曲线作为测量植物长宽的基础，提高了测量精度；(4)与有监督方法相比，该框架实现了更好的分割性能和推理速度。

2. 植物表型数据集

本研究引入了一个样本表型数据库。该数据集包括三种植物品种的图像：萝卜、黄瓜和南瓜。这些照片是用三星Galaxy S22 ultra拍摄的。数据收集于2022年8月至2023年6月在韩国京畿道的一个受控温室设施中进行。为了保持均匀的光照条件并减少所收集图像之间的差异，数据收集在太阳正午（上午11点至下午12点30分）前后的90分钟窗口内进行。

下图演示了使用智能手机捕获图像所采用的标准化过程。使用三脚架将智能手机相机固定在相对于成像平台的均匀距离和角度上。三脚架放在平台的底部。在整个图像采集过程中，站立杆作为保持正确定位的恒定参考。这种设置确保每张图像都以一致的对齐方式拍摄，从而减少了变化并增加了后续过程的可靠性。

下图显示了1600个带标签的植物图像在训练、验证和测试集中的分布。作者分配了80%的数据（1280张图像）用于训练和验证。其中1024张图像用于训练，其余256张用于验证。剩下的数据集（20%、320张图像）被保留用于测试。

3. 方法介绍

本文提出的零样本植物成分识别和表型性状测量框架如图所示。包含以下几个步骤：

预处理：本研究进行了两种预处理方法，即颜色校准和图像对齐。色彩校准旨在校正由相机设置、照明变化或传感器规格引起的色彩再现不一致；图像对齐解决了由于相机运动，风吹植物或不平坦地形引起的空间不对准问题。最后计算比例因子，将图像空间系统转换为实际空间系统。
无标签分割：ECLIP处理植物部位的文本描述，并直接在图像上生成关键点位置；这些点作为SAM的引导信号，识别和分割植物成分；最后通过后处理步骤细化分割掩码，消除错误分割的区域。
表型性状测量：利用无标签分割模块创建的分段掩码和计算出的比例因子，可以以现实世界为单位精确测量植物的各种表型性状，如宽度和长度。

（1）预处理

由于数据集是在现实世界条件下收集的，因此可能会受到各种因素的影响，导致图像不一致。为了保证数据集的质量，预处理步骤首先进行了颜色校准，然后使用了一个附加的几何变换模块。该模块将所有捕获的图像重新排列到一个标准化的角度和距离，以确保在不同图像之间准确地测量表型性状。

a. 颜色校正

颜色校准对于确保在不同照明条件下拍摄的图像中一致和准确的颜色至关重要，因为准确的颜色表示会显著影响提取表型性状的准确性。在图像捕获期间，将具有已知颜色值的参考图表附加到成像平台上。然后对捕获的图像进行处理，并在相同的照明条件下调整颜色以匹配检查器的颜色值。这种方法确保图像反映主体的实际颜色，而不管光线或相机设置的变化。

理想情况下，目标图像（受控条件）中色块对应的RGB值与源图像（室外条件）之间应存在直接的线性关系。然而，目标图像容易受到可变光照条件的影响，这可能导致偏离假定的线性关系。下图比较了源图像和参考图像的颜色检查矩阵。这些矩阵显示了两个图像中每个色块的平均红、绿、蓝值。很明显，在所有颜色通道中，源图像中的一些斑块偏离了预期的线性趋势线。这种偏差突出了颜色校准对精确和可靠结果的关键作用。

b. 图像对齐

在针孔相机模型的框架内，假设相机运动保持场景几何形状，在从不同视点捕获的同一场景的两幅图像之间可以通过单应性矩阵$H$建立基本联系。$H$采用$8$自由度的$3 \times 3$矩阵的形式，表示一种平面投影变换，能够将源图像中的点映射到目标模板中的对应点（从不同的视点捕获）。

这项研究使用了一个平面成像平台。为了使输入图像与成像平台模板的透视图对齐，本文应用了单应变换。单应矩阵估计采用SuperGlue，这是一种基于SuperPoint关键点和描述符训练的图神经网络，可以实现鲁棒的特征匹配。

图像对齐模块首先将包含植物样本的输入图像与成像平台参考模板配对。利用预训练的SuperGlue模型准确识别两幅图像之间的匹配点对。这些匹配的对作为计算单应性矩阵$H$的基础，$H$封装了两个透视图之间的关系。最后以$H$为关键参数进行透视变换，对输入图像进行对齐。

（2）无标签分割

本文使用可解释对比语言-图像预训练（ECLIP）和SAM模型来实现对关键植物成分（如叶子、果实）的精确分割。产生的植物掩码可能包含多个重叠和背景噪声，进一步通过后处理阶段来消除过小或过大的掩码，并根据预定义的阈值参数合并高度重叠的掩码。

a. 点提示生成

ECLIP是CLIP模型的增强版本，它允许通过图像-文本相似图（ITSM）对其预测进行可视化解释。ITSM图测量每个图像的特征映射和其相应文本描述的嵌入之间的相似性，可用于识别与文本描述最相关的图像区域。在无标签植物分割的背景下，使用相似性分数超过0.8的ECLIP点作为前景点提示输入来引导SAM；使用相似性分数最低的若干点作为背景点。

b. 零样本分割

SAM可以仅使用提示来处理以前从未见过的目标，这使得它适用于一系列分割任务。考虑到植物在输入图像中的未知位置，使用ECLIP模型提出的点提示作为提示编码器的输入，将提示编码器的输出与图像编码器的输出连接起来，将这个组合输入到掩码解码器中预测输入图像的分割掩码。

c. 掩码后处理

当使用点作为分割输入提示时，所得到的分割掩码通常包含许多高度重叠的掩码和来自背景的噪声。为了解决这个问题，本文实现了一个掩码后处理算法。该算法根据IoU和重叠率两个阈值去除过大或过小的掩码，并对重复或基本重叠的掩码进行合并（超过IoU或重叠率阈值的掩码被合并为单个掩码）。

考虑到数据集中三种植物类型的大小不同，只保留面积在总图像面积的5%到50%范围内的掩码。在合并重复掩码时，重叠阈值和IoU阈值为0.88。该值的选择与SAM的默认阈值一致。

（3）表型性状测量

从无标签分割模块中提取的分节植物掩码可用于精确测量植物的宽度和长度等表型性状。长度定义为通过器官的中线最长的一段（不包括茎）。然而确定植物的宽度是具有挑战性的，因为有无数条线可以垂直于植物的中轴线，因此测量的宽度可以根据所选择的测量线而变化。因此在沿中轴的不同点测量宽度特征，以创建一个宽度测量集合，单个宽度值表示为宽度剖面的中位数。

为了捕获输入掩码的一般结构，首先应用骨架化来获得其内侧轴的粗表示。然而由于某些植物的复杂形状，由此产生的粗糙的内轴线可能有多个分支，并且可能不会与掩码的边界相交。为了解决这些问题并提高测量精度，将b样条曲线拟合到骨架的粗内轴线上。

4. 实验分析

下图展示了预处理（包括图像对齐和颜色校准）在三种不同植物物种（南瓜、黄瓜和萝卜）上的关键作用。图像对齐模块有效地将输入图像重新对齐为成像平台的精确鸟瞰图，丢弃不相关的区域，简化下游处理任务；颜色校准利用参考模板来纠正颜色再现中的不一致，由此产生的输出图像显示出显著提高的视觉保真度，与现实生活中的图像更接近。结果强调了预处理在实现准确可靠的分割和表型性状测量结果中的重要性。

下表给出了所提出的零样本植物成分识别模型对数据集中三种植物类型（包括萝卜、黄瓜和南瓜）的分割性能。尽管存在现实世界数据的挑战（不同的光照和遮挡），所提植物成分分割框架在所有三种植物类型上都取得了良好的性能，这表明模型可以有效地分割各种植物成分，而无需针对这些类型的任何特定数据训练。

下图展示了四种新型植物在现实世界环境下的零样本模型的预测掩码。ECLIP的注意力掩码有效地确定了图像中潜在的重要植物成分区域，即使是具有各种形状和背景的植物。因此所提框架能够准确地引导SAM对植物成分进行精确分割。

为了评估表型性状测量的准确性，从测试数据集中随机选择了300个样本。对于每个样本使用每个图像中的标尺手动记录宽度和长度特征的地面真值。然后使用比例因子将每个测试图像的预测长度和宽度特征测量值从二维图像空间系统转换到现实世界的物体空间系统。

下图绘制了预测宽度和长度的误差分布，提供了对测量性能的分析。在大多数情况下，MAE保持在0.05以内。然而，一些异常值的长度和宽度的MAE误差都超过0.1。通过对故障案例的调查，发现最常见的误差来源是对茎部分的准确检测。在未成熟样本的情况下，准确的鉴定茎是一个重大挑战，因为茎的宽度与身体部分的宽度具有欺骗性。