开放世界文本指定目标计数.
受益于使用大规模图像-文本配对数据(如CLIP)进行联合文本-图像编码预训练的图像编码器的可用性,本文提出了单阶段开放世界图像计数模型CounTX,其中要计数的目标在推理时由文本描述指定。
CounTX模型由图像编码器、文本编码器、特征交互模块和解码器组成。
- 图像编码器使用在LAION-2B上预训练的CLIP的视觉编码器ViTB-16,模型的patch大小为16×16,共12层,最终嵌入维数为512。只图像编码器输出的patch令牌被使用,CLS令牌被丢弃。
- 文本编码器使用与上述视觉编码器共同预训练的CLIP的文本编码器,上下文长度为77,有12层,最终嵌入维数为512,将类别描述转换为单个512维特征向量。
- 特征交互模块是嵌入维数为512的两个Transformer解码器层,使用图像特征计算查询向量,使用文本特征计算键向量和值向量。输出被重塑成具有512通道的空间特征映射。
- 解码器首先将空间特征的每个通道使用双线性插值上采样到24×24像素,然后渐进上采样产生与输入图像具有相同高度和宽度的特征映射,并具有256个通道。使用1 × 1卷积将这些通道组合成单通道密度图。
在计数任务上微调CounTX之前,图像编码器和文本编码器使用CLIP对大量的图像-文本对进行预训练,将输入的图像和类描述映射到联合文本-图像嵌入空间,帮助特征交互模块比较来自两种模式的数据。因此,图像编码器和文本编码器首先使用来自CLIP的预训练权重初始化。然后文本编码器被冻结,而图像编码器在计数任务上与模型的其余部分进行微调,这种微调和冻结图像和文本编码器的组合可以产生最佳性能。
作为计数任务常用的FSC-147数据集,其类别名不能准确描述被计数的目标。作者将FSC-147类名转换为对“应该计算什么目标”这个问题的回答。并纠正发现的错误。将这组描述命名为“FSC-147-D”。
实验结果表明,在FSC-147-d上训练的CounTX在FSC-147上的所有测量中,对于文本指定的目标计数都达到了最先进的性能。
为了验证CounTX使用类别描述对目标进行计数,将FSC-147测试集中的图像对拼接在一起,并让CounTX负责预测同一拼接图像中不同类别的计数。下图给出了一些使用类别描述来区分目标的例子。