通过CLIP隐特征实现层次化文本条件图像生成.
本文提出了DALL-E 2模型,将CLIP模型与扩散模型结合起来,用于文本条件下的图像生成问题。DALL-E 2模型是一种层级式的基于CLIP特征的文本图像生成模型。DALL-E 2模型根据CLIP的文本特征和图像特征生成图像,因此被作者称为unCLIP;层级式是指在图像生成时先生成64x64再生成256x256,最终生成1024x1024的高清大图。
DALL-E 2模型通过CLIP模型找到文本特征与图像特征的对应关系,然后训练一个prior模型将文本特征转换为图像特征,再训练一个decoder模型根据图像特征生成图像。
DALL-E 2模型的主要架构如图所示。上部是一个CLIP模型,输入为文本-图像对,文本信息和图像信息分别经过文本编码器和图像编码器提取文本特征和图像特征。下方主要由prior部分和decoder部分两阶段组成;首先将文本信息经过文本编码器提取文本特征,prior根据文本信息生成图像特征。训练过程中,图像编码器提取的图像特征作为prior生成的图像特征的标签。最后通过decoder部分根据图像特征生成图像。
prior部分负责从文本特征$y$产生图像特征$z$,作者探索两种不同的模型类别:
- 自回归先验:图像特征$z$被离散化,并以文本特征$y$为条件进行自回归预测;
- 扩散先验:图像特征$z$直接使用高斯扩散模型,以文本特征$y$为条件进行建模。
decoder部分使用GLIDE模型,其中生成的图像特征$z$作为输入条件。
DALL-E 2模型把任意图像$x$编码成图像特征$z$,并根据图像特征生成图像,因此具有特征编辑的能力。对于同一个图像特征$z$,decoder部分的生成过程具有一定的随机性:
也可以通过对两张图像的图像特征$z_1,z_2$进行球面插值,实现图像插值:
也可以对图像的文本特征$y$进行插值: