开放世界文本指定目标计数.

受益于使用大规模图像-文本配对数据(如CLIP)进行联合文本-图像编码预训练的图像编码器的可用性,本文提出了单阶段开放世界图像计数模型CounTX,其中要计数的目标在推理时由文本描述指定。

CounTX模型由图像编码器、文本编码器、特征交互模块和解码器组成。

在计数任务上微调CounTX之前,图像编码器和文本编码器使用CLIP对大量的图像-文本对进行预训练,将输入的图像和类描述映射到联合文本-图像嵌入空间,帮助特征交互模块比较来自两种模式的数据。因此,图像编码器和文本编码器首先使用来自CLIP的预训练权重初始化。然后文本编码器被冻结,而图像编码器在计数任务上与模型的其余部分进行微调,这种微调和冻结图像和文本编码器的组合可以产生最佳性能。

作为计数任务常用的FSC-147数据集,其类别名不能准确描述被计数的目标。作者将FSC-147类名转换为对“应该计算什么目标”这个问题的回答。并纠正发现的错误。将这组描述命名为“FSC-147-D”。

实验结果表明,在FSC-147-d上训练的CounTXFSC-147上的所有测量中,对于文本指定的目标计数都达到了最先进的性能。

为了验证CounTX使用类别描述对目标进行计数,将FSC-147测试集中的图像对拼接在一起,并让CounTX负责预测同一拼接图像中不同类别的计数。下图给出了一些使用类别描述来区分目标的例子。