少样本计数的语义生成增强.
少样本目标任务依赖于用边界框注释的目标样本,采用提取-匹配的方式比较样本和查询图像的特征,然后将匹配的特征转换成密度图(表示感兴趣目标的密度),然后对密度图求和以获得预测计数。其中计数数据集的数据样本通常包括查询图像、若干个目标样本的检测框以及目标的密度图。
本文提出在输入文本提示和密度图条件下合成计数图像的方法。对于计数数据集中的数据样本,首先使用现成的图像描述模型BLIP2获得多样化的描述性文本。然后通过ControlNet微调策略,输入文本与密度图来微调在LAION 2B上训练的Stable diffusion v1.5模型。微调完成后,可以通过生成模型构造新的样本。
作者进一步通过改变文本描述或物体的空间位置来使数据增强的结果更加多样化。通过混合密度图和文本描述来创建新的组合,产生比原始数据集在语义和几何上更多样化的增强数据集。为了使生成模型具有逼真的(密度图,文本)对,依靠文本描述相似性来发现共享某些语义的图像之间的新关联。如果两张图片的文本描述$c_i,c_k$相似度超过阈值$t_c$,则称它们是兼容的:
\[sim(c_i,c_k) = \frac{E_{text}(c_i)^TE_{text}(c_k)}{||E_{text}(c_i)||_2||E_{text}(c_k)||_2} > t_c\]在数据生成时使用初始密度图对新图像进行采样,但将原始文本描述替换为随机选择的兼容文本描述。这个过程产生了更多样化的增强,并且比传统增强(颜色抖动、作物等)改变了更多的图像。
实验结果表明,所提数据增强策略对SAFECount和CounTR两种计数网络均是有效的。