ReCo: 区域控制的文本到图像生成.

paper：ReCo: Region-Controlled Text-to-Image Generation

文本到图像生成旨在根据描述图像内容的文本生成真实的图像；但是纯文本查询的可控性有限，无法精确指定特定区域的内容。布局到图像生成将带有标签的所有目标边界框作为输入，但它们很难理解自由格式的文本输入。本文将开放式文本描述和空间位置进行区域级组合，实现了同时接收两种输入条件的区域控制文本到图像生成。

1. ReCo

区域控制的文本到图像生成(ReCo)旨在设计一个统一的输入token词汇表，其中包含文本单词$T$和位置标记$P$，以允许精确和开放式的区域控制。

ReCo在预训练文本词嵌入$T$的同时引入位置标记$P$，用四个浮点数表示每个区域的位置标记$P$，即边界框的左上坐标和右下坐标$<x_1>,<y_1>,<x_2>,<y_2>$。输入序列设计为图像描述+多个位置标记和相应的区域描述。区域的数量是无限的，允许用户轻松地创建具有更多区域的复杂场景。预训练CLIP文本编码器将标记编码为序列嵌入。

ReCo模型的微调既需要图像描述，也需要多个区域描述。对于训练数据，在裁剪的目标区域上运行SOTA描述模型，以获得区域描述。在微调过程中，将图像的短边大小调整为512，并随机裁剪一个正方形区域作为输入图像。