Can SAM Count Anything? An Empirical Study on SAM Counting

分割一切模型可以计数一切吗？分割一切模型计数的实验报告.

paper：Can SAM Count Anything? An Empirical Study on SAM Counting

Meta AI最近推出了分割一切模型(SAM)，该模型因其在类别无关的分割方面的出色表现而备受关注。这项研究探索了使用SAM来完成具有挑战性的计数任务，即通过提供一些示例的边界框来计数任意类别的目标。通过将SAM的性能与其他少样本计数方法进行比较，发现如果没有进一步的微调，尤其是计数小而拥挤的物体，SAM的性能目前并不令人满意。

首先利用SAM的图像编码器(ViT-H)对给定图像进行特征提取；其次利用给定的目标边界框作为提示来生成参考目标的分割掩码，并与图像特征相乘并取平均以产生参考目标的特征向量；之后使用点网格(每边设定32个点)作为提示对所有内容进行分割，并将输出掩码与图像特征相乘并取平均生成所有掩码的特征向量；最后计算预测掩码的特征向量与参考目标的特征向量之间的余弦相似度，如果余弦相似度超过预定阈值，则将其视为目标对象。

下表给出了SAM在FSC-147数据集上的性能。虽然SAM的性能超过了一些早期的方法，但明显不如最近的方法。

作者可视化了一些预测计数和实际真值计数差异很大的图像。前三幅图像有一个共同点：在预测过程中，小而拥挤的物体被预测为单个物体。在第四张图中，SAM错误地预测了葡萄等其他种类的水果。

SAM目前仍落后于最先进的少样本计数方法，作者认为这是由于两个主要原因。

SAM倾向于用单个掩码对同一类别的拥挤对象进行分割。
SAM使用缺乏语义类注释的掩码进行训练，这可能会妨碍SAM区分不同对象的能力。