CLIBD: Bridging Vision and Genomics for Biodiversity Monitoring at Scale

CLIBD：融合视觉与基因组学的大规模生物多样性监测.

paper：CLIBD: Bridging Vision and Genomics for Biodiversity Monitoring at Scale

TL; DR

本文提出了一种创新方法，首次融合DNA和图像数据以提高生物多样性监测的准确性。通过对比实验，该方法在零样本学习任务上比先前的单模态方法提高了$8\%$以上的准确率，为生物多样性研究提供了新的思路和方法。

1. 背景介绍

随着环境变化和栖息地丧失的加速，监测生物多样性对于理解和维护生态系统健康至关重要。大规模的生物分类对于了解区域生物多样性和研究物种相互作用尤为重要。传统上，研究人员依赖图像识别技术来识别图像中的生物体，但这些方法仅基于图像信息，忽略了生物体丰富的进化历史和遗传信息。

DNA条形码技术（如COI条形码）为生物分类提供了更精确的手段，且比需要人类专家手动检查的分类标签更容易大规模获取。然而，DNA条形码和图像数据通常来自不同的来源，且存在部分物种仅有图像或仅有DNA数据的情况。因此，如何有效地融合这两种模态的数据，以提高生物多样性监测的准确性，成为了一个亟待解决的问题。

2. 方法介绍

本文提出的CLIBD方法旨在融合图像和DNA数据，以构建一个强大的多模态表示空间。该模型包括一个图像编码器、一个DNA编码器和一个文本编码器。

图像编码器: 使用ViT-B1，在ImageNet-21k上预训练，在ImageNet-1k上微调；
DNA编码器：使用5-mer tokenization BarcodeBERT，在893k个DNA序列上预训练；
文本编码器：使用BERT-Small

在训练过程中，CLIBD采用对比学习策略，通过最大化相同物种的图像、DNA和文本特征之间的相似性，同时最小化不同物种之间的相似性，来学习一个有效的多模态表示空间。对于图像-DNA对$(X,D)$、DNA-文本对$(D,T)$和图像-文本对$(X,T)$，分别构造对比损失：

\[L_{XD} = \sum_{i=1}^n \left( -\log \frac{\exp(X_i^TD_i/\tau)}{\sum_{j=1}^n \exp(X_j^TD_j/\tau)}-\log \frac{\exp(D_i^TX_i/\tau)}{\sum_{j=1}^n \exp(D_j^TX_j/\tau)} \right) \\ L_{DT} = \sum_{i=1}^n \left( -\log \frac{\exp(D_i^TT_i/\tau)}{\sum_{j=1}^n \exp(D_j^TT_j/\tau)}-\log \frac{\exp(T_i^TD_i/\tau)}{\sum_{j=1}^n \exp(T_j^TD_j/\tau)} \right) \\ L_{XT} = \sum_{i=1}^n \left( -\log \frac{\exp(X_i^TT_i/\tau)}{\sum_{j=1}^n \exp(X_j^TT_j/\tau)}-\log \frac{\exp(T_i^TX_i/\tau)}{\sum_{j=1}^n \exp(T_j^TX_j/\tau)} \right) \\\]

该方法可以利用实际数据中部分可用的分类标签来构建多模态表示空间，进一步提高了表示的鲁棒性。

为了使用该模型预测分类标签，计算输入图像（查询）与从可用物种中采样的 DNA 嵌入（键）之间的余弦相似度。使用与最接近的键匹配的分类标签（目、科、属、种）作为预测。这种方法允许在零样本设置下对模型在训练期间未见过的物种进行评估。

3. 实验分析

本文使用了一个包含大量昆虫图像和DNA条形码的数据集BIOSCAN-1M进行训练和评估。该数据集包括多个物种的图像和DNA序列，部分物种仅有图像数据，部分物种仅有DNA数据，还有部分物种同时具有两种数据；只使用有分类标签的数据。

实验结果表明，CLIBD方法在零样本学习任务上比先前的单模态方法提高了8\%以上的准确率。此外，该方法在具有部分分类标签的数据集上也表现出色，进一步证明了其有效性。

除了与单模态方法进行对比外，本文还与BioCLIP等先进的多模态方法进行了对比实验。实验结果表明，CLIBD方法在多个评估指标上均优于BioCLIP等方法，进一步证明了其优越性和实用性。

通过分析模型的注意力分布和特征表示，发现CLIBD方法能够更准确地捕捉图像和DNA数据之间的关联信息，从而提高了生物分类的准确性。