VisualBERT: A Simple and Performant Baseline for Vision and Language
VisualBERT:一个简单有效的视觉语言基线.
VisualBERT:一个简单有效的视觉语言基线.
LXMERT:学习Transformer中的跨模态编码表示.
Vision-Language Pretraining.
分析和改进扩散模型的训练动力学.
(Heilongjiang Chapter) Harbin: Ice and Snow World.
VLCounter:零样本目标计数的文本感知视觉表示.