Open-world Text-specified Object Counting

开放世界文本指定目标计数.

paper：Open-world Text-specified Object Counting

受益于使用大规模图像-文本配对数据(如CLIP)进行联合文本-图像编码预训练的图像编码器的可用性，本文提出了单阶段开放世界图像计数模型CounTX，其中要计数的目标在推理时由文本描述指定。

CounTX模型由图像编码器、文本编码器、特征交互模块和解码器组成。

图像编码器使用在LAION-2B上预训练的CLIP的视觉编码器ViTB-16，模型的patch大小为16×16，共12层，最终嵌入维数为512。只图像编码器输出的patch令牌被使用，CLS令牌被丢弃。
文本编码器使用与上述视觉编码器共同预训练的CLIP的文本编码器，上下文长度为77，有12层，最终嵌入维数为512，将类别描述转换为单个512维特征向量。
特征交互模块是嵌入维数为512的两个Transformer解码器层，使用图像特征计算查询向量，使用文本特征计算键向量和值向量。输出被重塑成具有512通道的空间特征映射。
解码器首先将空间特征的每个通道使用双线性插值上采样到24×24像素，然后渐进上采样产生与输入图像具有相同高度和宽度的特征映射，并具有256个通道。使用1 × 1卷积将这些通道组合成单通道密度图。

在计数任务上微调CounTX之前，图像编码器和文本编码器使用CLIP对大量的图像-文本对进行预训练，将输入的图像和类描述映射到联合文本-图像嵌入空间，帮助特征交互模块比较来自两种模式的数据。因此，图像编码器和文本编码器首先使用来自CLIP的预训练权重初始化。然后文本编码器被冻结，而图像编码器在计数任务上与模型的其余部分进行微调，这种微调和冻结图像和文本编码器的组合可以产生最佳性能。

作为计数任务常用的FSC-147数据集，其类别名不能准确描述被计数的目标。作者将FSC-147类名转换为对“应该计算什么目标”这个问题的回答。并纠正发现的错误。将这组描述命名为“FSC-147-D”。

实验结果表明，在FSC-147-d上训练的CounTX在FSC-147上的所有测量中，对于文本指定的目标计数都达到了最先进的性能。

为了验证CounTX使用类别描述对目标进行计数，将FSC-147测试集中的图像对拼接在一起，并让CounTX负责预测同一拼接图像中不同类别的计数。下图给出了一些使用类别描述来区分目标的例子。