DetCLIP:用于开放世界检测的字典增强视觉概念并行预训练.

开放世界目标检测的目标是识别和定位任意类别的目标。最近的工作 GLIP 将其构建成了一个 phrase grounding 任务,将所有待检测的类别整合成一个句子,然后送入 text encoder 进行编码并和图像特征进行对齐。在 text encoder 中,会学习所有类别之间的 attention,这其实是没有必要且低效的,尤其是当类别数量增加时,效率更低。

基于此,作者提出了 DetCLIP,设计了一个并行的结构来提高效率,不会将整个 prompt text 送入 text encoder,而是将每个 concept 都作为一个独立的个体,将所有的 concept 分别送入不同的 text encoder。这样能够避免模型受到不相关类别无效关联,并且能给每个 concept 都产生一个长描述。

另外预训练时使用的数据集一般域间差别比较大且命名也有较大的不同,比如一个相同类别的目标在不同数据集中的命名可能是不同的。这样就很难直接从命名上来获得这些类别之间的关联。所以作者重新构建了一个 concept dictionary,丰富联合不同数据集进行 pre-trainingprompt text。首先从现有数据集中组合了一个 dictionary,然后基于上面的 dictionaryDetCLIP 能够自动丰富概念和描述。

1. 并行概念表述 Paralleled Concept Formulation

DetCLIP引入了并行结构,会将每个类别名称单独送入 text encoder 来得到对应的编码结果,模型是从单独的 concept 中学习其语言特征的,可以提高学习效率;此外并行结构可以根据类别数量来很容易的扩展。

不同数据如何适应这个并行结构:

2. 概念字典 Concept Dictionary

由于现有的 detection/grounding/image-textpair 这些数据集有较大的 domain gap 和不同的 labeling space。这些概念也会有包含或层级的关系,这些语义的关系可能会促进预训练,但仅从词汇名称中很难发现他们直接的关系。

所以作者构建了一个大规模的词汇字典,来将不同数据源的词汇统一到一个词汇空间,并且能够通过描述来提供不同词汇之间的关联。比如:

作者首先从多个源头收集 conceptimage-text pair 数据集(YFCC100m)、检测数据集中的类别(Object365OpenImage)、物体数据集中的物体名称(Tings 数据集)。然后会先去重然后放入词汇字典中,得到了包含约 14k 词汇和对应定义的字典。对于输入的 concept,如果该 concept 在字典里,则会使用该 concept 对应的描述;如果不在字典里,会通过计算相似性矩阵,来找出与其最接近的 concept,并且找到对应的描述。

3. DetCLIP

DetCLIP 包含:

作者分别对并行设置PF、概念增强CE、负样本NS和标签补充LC进行消融: