VLCounter: Text-aware Visual Representation for Zero-Shot Object Counting
VLCounter:零样本目标计数的文本感知视觉表示.
VLCounter:零样本目标计数的文本感知视觉表示.
少样本计数的语义生成增强.
Natural Record: Ginkgo.
FlashFFTConv: 使用张量核实现长序列的高效卷积.
DetCLIPv2:通过词汇-区域对齐实现可扩展开放词汇目标检测预训练.
DetCLIP:用于开放世界检测的字典增强视觉概念并行预训练.