Open-Set Object Detection.

开集目标检测(Open-Set Object Detection, OSOD)也被称为Open-World目标检测或Open-Vocabulary目标检测,是指在可见类(base class)的数据上进行训练,然后完成对不可见类(unseen/target)数据的定位与识别。

开集目标检测的出发点是制定一种更加通用的目标检测模型来覆盖更多的object concept,使得目标检测不再受限于带标注数据的少数类别,从而实现更加泛化的目标检测,识别出更多novel的物体类别。

注意:早期的Open-Set目标检测与Open-Vocabulary目标检测所指代含义是不同的。前者倾向于检测出未知目标即可,不再判别目标的具体类别;后者则需要根据指定的新类别进行检测。本文则不再进行区分。

一些常见的开集目标检测方法包括:

1. 基于无监督学习的开集检测器

⚪ OSODD

OSODD采用阶段检测方式:Object Detection and Retrieval (ODR)Object Category Discovery (OCD)

⚪ Detic

Detic使用图像分类数据集和目标检测数据集一起联合训练。对于分类图像,由RPN获取proposal,选取最大面积的proposal,这个proposal对应的label就是图像层面的类别。

⚪ VLDet

VLDet直接从image-text pairs训练目标检测器,主要出发点是从image-text pairs中提取region-word pairs可以表述为两个集合的元素匹配问题,该问题可以通过找到区域和单词之间具有最小全局匹配成本的二分匹配来有效解决。

2. 基于多模态学习的开集检测器

当人类捕捉到视觉信息后,会将它们与语言文字联系起来,从而产生丰富的视觉和语义词汇,这些词汇可以用于检测物体,并拓展模型的表达能力。因此通过多模态学习技术借助大量的图像与语义词汇,可以使得目标检测器在未知类别也能进行识别与定位。

(1)基于Referring的开集检测器

预训练的开放词汇图像分类模型(如CLIP)是一种在大量图像和文本对上训练的多模态模型。这类模型可用于查找最能代表图像的文本片段,或查找给定文本查询的最合适图像。

基于Referring的开集检测器是指将开放词汇图像分类模型中视觉端的能力迁移至检测模型中,再利用文本编码器完成检测模型的识别工作。

⚪ ViLD

ViLD通过CLIP的视觉编码器蒸馏训练R-CNN中的区域提议网络,再使用CLIP的文本编码器对目标区域进行分类。

⚪ RegionCLIP

CLIPRegion区域上的识别很差,这是由于CLIP是在Image-Language level上进行的预训练导致的。RegionCLIPCLIPregion图像和单词层面进行预训练,提高了区域级别的检测能力。

⚪ VL-PLM

VL-PLM利用CLIP对无标签数据进行伪标签标注,然后混合伪标签数据和真实标注数据一起训练。注意到CLIP对于区域级别的图像识别能力不足,VL-PLM反复将ROI输入ROI head精调,最后RPN的分数将和CLIP的分类分数作平均。

⚪ Grad-OVD

给定一个预训练的视觉语言模型和一个图像-描述样本对,Grad-OVD在图像中计算Grad-CAM激活图,对应于描述中感兴趣的目标。然后将激活映射转换为对应类别的伪标签框。开放词汇检测器可以直接在这些伪标签的监督下进行训练。

(2)基于Grounding的开集检测器

短语定位(phrase grounding)任务是指同时提供一张图像和一段描述图像的文本(captions),根据文本的描述信息从图像中找到对应的物体。

基于Grounding的开集检测器是指把开集目标检测任务建模为边界框提取+短语定位任务。该过程引入大规模caption数据集完成region-word级别的视觉模型和语言模型预训练。

⚪ OVR-CNN

OVR-CNN使用一个 Vision to Language(V2L)映射层将视觉特征变换到文本嵌入空间,使得两个不同模态的特征能在同一空间来衡量相似性。V2L通过grounding, masked language modeling (MLM)image-text matching (ITM)任务预训练后,把预测边界框的特征嵌入后与预先给定类别标签的文本特征计算相似度来进行分类。

⚪ MDETR

MDETR采用CNN提取视觉特征,采用语言模型提取文本特征,将两者concat后通过DETR预测目标框。

⚪ GLIP

GLIP把图像特征与文本特征分别由单独的编码器编码,然后通过跨模态多头注意力模块(X-MHA)进行深度融合。

⚪ DetCLIP

GLIPtext encoder 中会学习所有类别之间的 attentionDetCLIP将每个 concept 分别送入不同的 text encoder。这样能够避免模型受到不相关类别无效关联,并且能给每个 concept 都产生一个长描述。

⚪ DetCLIPv2

DetCLIPv2是一个面向开放词汇目标检测的统一端到端预训练框架,通过使用区域和单词之间的最佳匹配集相似性来引导对比目标,以端到端的方式执行检测、定位和图像对数据的联合训练。

⚪ Grounding DINO

Grounding DINO采用双编码器、单解码器结构。对于输入的每个(图像,文本)对,首先分别使用图像主干网络和文本主干网络提取图像特征和文本特征;两个特征被送入特征增强模块,用于跨模态特征融合;获得跨模态文本和图像特征后,使用语言引导的查询选择模块从图像特征中选择跨模态的目标查询;这些跨模态查询被送到跨模态解码器中,用于预测目标框并提取相应的短语。