ReCo: 区域控制的文本到图像生成.

文本到图像生成旨在根据描述图像内容的文本生成真实的图像;但是纯文本查询的可控性有限,无法精确指定特定区域的内容。布局到图像生成将带有标签的所有目标边界框作为输入,但它们很难理解自由格式的文本输入。本文将开放式文本描述和空间位置进行区域级组合,实现了同时接收两种输入条件的区域控制文本到图像生成。

1. ReCo

区域控制的文本到图像生成(ReCo)旨在设计一个统一的输入token词汇表,其中包含文本单词$T$和位置标记$P$,以允许精确和开放式的区域控制。

ReCo在预训练文本词嵌入$T$的同时引入位置标记$P$,用四个浮点数表示每个区域的位置标记$P$,即边界框的左上坐标和右下坐标\(<x_1>,<y_1>,<x_2>,<y_2>\)。输入序列设计为图像描述+多个位置标记和相应的区域描述。区域的数量是无限的,允许用户轻松地创建具有更多区域的复杂场景。预训练CLIP文本编码器将标记编码为序列嵌入。

ReCo模型的微调既需要图像描述,也需要多个区域描述。对于训练数据,在裁剪的目标区域上运行SOTA描述模型,以获得区域描述。在微调过程中,将图像的短边大小调整为512,并随机裁剪一个正方形区域作为输入图像。

2. 实验分析

作者比较了ReCo中区域描述的设置情况,分别设置为开放式自由文本与受限的类别描述。结果表明使用类别描述在相同的区域目标词汇表中的区域控制准确率较高,但是应用到其他数据集时性能显著下降。由于类别描述不能提供详细的区域描述信息,如属性和目标关系,因此对生成高保真图像的帮助较小。

作者比较了不同的无分类器引导尺度参数对区域控制精度和图像生成质量的影响。结果表明设置为1.5可以获得最佳的图像质量,而设置为4.0可以提供最佳的区域控制性能。

作者在PaintSkill数据集上评估模型生成具有正确目标类型/计数/关系的图像的能力。PaintSkill数据集包含随机分配目标类型、位置和形状的输入查询。结果表明,模型不仅精确地遵循位置查询,而且自然地适应目标及其周围环境,表明对目标属性的理解。