Layout-to-Image Generation.

布局引导图像生成 (Layout-to-Image Generation)是图像感知任务(如目标检测、图像分割)的逆过程,即根据给定的布局生成对应的图像。

布局描述了包含在图像中的目标信息,可以通过目标类别、边界框、分割mask、关键点、边缘图、深度图等来定义。布局引导的图像生成是指学习一个条件生成模型$\mathcal{G}$,在给定几何布局$L$的条件下生成图像$I$:

\[I = \mathcal{G}(L,z) , \quad z\sim \mathcal{N}(0,1)\]

根据布局控制条件的输入形式,布局引导的图像生成模型包括:

1. 文本级L2I模型

ReCo

ReCo的输入布局包括图像的文本描述和每个目标框的类别、位置、文本描述。ReCo在预训练文本词嵌入$T$的同时引入位置标记$P$,用四个浮点数表示每个区域的位置标记$P$,即边界框的左上坐标和右下坐标\(<x_1>,<y_1>,<x_2>,<y_2>\)。输入序列设计为图像描述+多个位置标记和相应的区域描述。预训练CLIP文本编码器将标记编码为序列嵌入。

LayoutDiffusion

LayoutDiffusion模型由布局融合模块(Layout Fusion Module, LFM)和目标感知交叉注意机制(object-aware Cross-Attention Mechanism, OaCA)组成。该模型的输入布局包括每个目标框的类别、位置。

GeoDiffusion

GeoDiffusion可以灵活地将边界框或几何控制(例如自动驾驶场景中的相机视图)转换为文本提示,实现高质量的检测数据生成,有助于提高目标检测器的性能。该模型的输入布局包括与布局相关的几何条件和每个目标框的类别、位置。

GeoDiffusion进一步引入一个自适应重加权mask与重构损失相乘,使模型能够更加关注前景生成,解决前景与背景不平衡问题。

\[m_{ij}^\prime = \begin{cases} \frac{w}{c_{ij}^p}, & (i,j) \in \text{foreground} \\ \frac{1}{(HW)^p}, & (i,j) \in \text{background} \end{cases}\]

DetDiffusion

DetDiffusion使用感知模型为生成模型提供信息,从而增强后者生成控制的能力。该模型的输入布局包括每个目标框的类别、位置和感知属性。

\[d_i = \begin{cases} [\text{easy}], & \exists j, \text{IoU}(b_j, o_i) > \beta \\ [\text{hard}], & \text{else} \end{cases}\]

2. 像素级L2I模型

GLIGEN

GLIGEN冻结原始模型的权重,并通过引入门控自注意力层来将输入布局信息引入模型。输入布局信息采用不同的方式进行编码:

LayoutDiffuse

LayoutDiffuse通过微调预训练扩散模型实现了布局到图像的生成。LayoutDiffuse通过在U-Net的每一层之后添加布局注意力(layout attention)层来引入布局条件,布局注意力层为每个类别和背景特征引入可学习的token,并分别计算特征自注意力再融合;此外还添加了任务感知提示(task-aware prompt)来指示模型生成任务的更改,任务感知提示通过在预训练模型的输入前添加一个可学习的嵌入向量来实现。

ControlNet

ControlNet冻结神经网络原始模块的参数$\Theta$,并拷贝该模块为具有参数$\Theta_c$的可训练版本。将拷贝模块通过两个零卷积\(\mathcal{Z}\)(参数初始化为$0$的$1\times 1$卷积)连接到原模块,接收输入布局条件$c$作为输入。零卷积保证了训练的初始阶段不会引入有害的训练噪声,保留了大型预训练模型的生成能力。

\[y_c = \mathcal{F}(x; \Theta) + \mathcal{Z}(\mathcal{F}(x+\mathcal{Z}(c; \Theta_1); \Theta_c); \Theta_2)\]

ControlNet接受边缘、Hough线、用户涂鸦、人体关键点、分割图、形状法线、深度图等形式的布局图像,使用由4 × 4卷积核、步长为2的4个卷积层组成的网络(由ReLU激活,分别使用16、32、64、128个通道,用高斯初始化并与完整模型联合训练)将图像编码为输入布局条件$c$。

InstanceDiffusion

InstanceDiffusion支持单点、涂鸦、边界框和实例分割掩码等输入布局,使用UniFusionScaleUMulti-instance Sampler三大模块实现了对图像生成的精确控制。