DINO-X:开放世界目标检测与理解的统一视觉模型.

1. 方法简介

DINO-X是由IDEA Research开发的以目标为中心的统一视觉模型,支持各种开放世界感知和目标级理解任务,包括开放世界目标检测和分割、短语定位、视觉提示目标计数、姿态估计、无提示目标检测和识别、密集区域描述等。

DINO-X采用与Transformer相同的编码器-解码器架构,并将开集检测作为其核心训练任务。为了使长尾目标检测更容易,DINO-X在模型输入阶段采用了更全面的提示设计:

  1. 文本提示:基于用户提供的文本输入来识别感兴趣的目标,这可以覆盖大多数检测场景;
  2. 视觉提示:DINO-X支持画框或点等视觉提示,进一步覆盖了仅靠文本无法很好描述的检测场景;
  3. 定制提示符:DINO-X特别引入了定制提示符,它可以作为预定义的或用户调整的提示符嵌入来满足定制需求。通过提示调优,可以为不同的域或特定于功能的提示创建域定制的提示,以满足各种功能需求。

DINO-X能够集成多个感知头,同时支持多个目标感知和理解任务,对输入图像提供更详细的目标级理解。除了用于目标检测的边界框头之外,DINO-X还实现了三个额外的头:

  1. 用于预测检测目标的分割掩码的掩码头;
  2. 用于预测特定类别的关键点的关键点头;
  3. 用于为每个检测目标生成细粒度描述性标题的语言头。

DINO-X包括两个模型:DINO-X Pro模型为各种场景提供增强的感知能力;DINO-X Edge模型优化了更快的推理速度,更适合部署在边缘设备上。

为了增强模型的预训练能力,作者构建了一个包含超过1亿个高质量样本的大型数据集Grounding-100M,以提高模型的开放词汇检测性能。在这样一个大规模的基础数据集上进行预训练可以得到一个目标的基础级表示。

DINO-X Pro模型在COCOLVIS-minivalLVIS-val的零样本基准测试中分别达到了56.0 AP59.8 AP52.4 AP。值得注意的是,它在LVIS-minivalLVIS-val的罕见类别中得分为63.356.5,比Grounding DINO 1.6 Pro提高了5.8 AP5.0 AP,比Grounding DINO 1.5 Pro提高了7.2 AP11.9 AP,突出了其识别长尾物体的能力显著提高。

2. 模型细节

(1)DINO-X Pro模型

DINO-X利用ViT作为特征提取的骨干,并结合了类似的Transformer编码器-解码器架构。DINO-X支持的提示编码器:

DINO-X会在上述提示和从输入图像中提取的视觉特征之间进行深度特征融合,然后对不同的感知任务应用不同的头部。

(2)DINO-X Edge模型

DINO-X Edge采用EfficientViT作为高效特征提取的骨干。为了进一步提高DINO-X Edge模型的性能和计算效率,作者对模型架构和训练技术进行了以下几个方面的改进:

(3)训练数据

为了确保核心的开放词汇目标检测能力,作者开发了一个高质量和语义丰富的Grounding数据集,该数据集由从网络上收集的1亿多张图像组成,称为Grounding-100M

作者使用T-Rex2的训练数据和一些额外的工业场景数据进行基于视觉提示的预训练。

作者使用开源分割模型,如SAMSAM2Grounding-100M数据集的一部分生成伪掩码注释作为掩码头的主要训练数据。

作者从Grounding-100M数据集中采样了一个高质量的数据子集,并利用它们的框注释作为无提示检测训练数据。

作者还收集了超过1000万个区域理解数据用于语言头训练,涵盖了目标识别、区域描述、OCR和区域级QA场景。

(4)训练策略

DINO-X采用了两阶段训练策略:

  1. 第一阶段对基于文本提示的检测、基于视觉提示的检测和目标分割进行了联合训练;这种大规模的预训练确保了DINO-X出色的开放词汇检测性能,并产生了基本的目标级表示。
  2. 第二阶段冻结了DINO-X骨干网络,并添加了两个关键点头(人和手)和一个语言头,每个都被单独训练;通过增加更多的头部,极大地扩展了DINO-X执行更细粒度感知和理解任务的能力。

随后作者利用提示调优技术训练了一个通用目标提示符,允许在保留模型的其他功能的同时进行无提示的任何目标检测。

这种两阶段训练方法确保模型的核心检测能力不受引入新能力的影响,它还验证了大规模开集检测预训练可以作为以目标为中心的模型的强大基础,允许无缝转移到其他开放世界的理解任务。