Hierarchical Text-Conditional Image Generation with CLIP Latents

通过CLIP隐特征实现层次化文本条件图像生成.

paper：Hierarchical Text-Conditional Image Generation with CLIP Latents

本文提出了DALL-E 2模型，将CLIP模型与扩散模型结合起来，用于文本条件下的图像生成问题。DALL-E 2模型是一种层级式的基于CLIP特征的文本图像生成模型。DALL-E 2模型根据CLIP的文本特征和图像特征生成图像，因此被作者称为unCLIP；层级式是指在图像生成时先生成64x64再生成256x256，最终生成1024x1024的高清大图。

DALL-E 2模型通过CLIP模型找到文本特征与图像特征的对应关系，然后训练一个prior模型将文本特征转换为图像特征，再训练一个decoder模型根据图像特征生成图像。

DALL-E 2模型的主要架构如图所示。上部是一个CLIP模型，输入为文本-图像对，文本信息和图像信息分别经过文本编码器和图像编码器提取文本特征和图像特征。下方主要由prior部分和decoder部分两阶段组成；首先将文本信息经过文本编码器提取文本特征，prior根据文本信息生成图像特征。训练过程中，图像编码器提取的图像特征作为prior生成的图像特征的标签。最后通过decoder部分根据图像特征生成图像。