通过深度语言理解实现真实文本图像扩散模型.

本文提出了Imagen,一种结合了 Transformer 语言模型和文本到图像扩散模型的文本到图像合成方法。与仅使用图像-文本数据进行模型训练相比,Imagen发现来自在纯文本语料库上预训练的大型语言模型的文本嵌入对于文本到图像的合成非常有效。

Imagen由一个冻结的文本编码器、一个文本图像扩散模型和两个超分辨率扩散模型组成。文本编码器采用T5-XXL模型,比当前图文模型(CLIP)中的文本编码器大很多,结果表明仅在文本数据上训练的大型冻结语言模型对于文本到图像的生成是非常有效的文本编码器。

文本图像扩散模型以文本嵌入序列为条件,生成64×64的图像;两个超分辨率扩散模型也以文本嵌入序列为条件,生成256×256和1024×1024图像。在扩散模型的采样过程中,通过动态阈值(dynamic thresholding)利用高引导权重并生成比以前更逼真的图像。扩散架构采用了Efficient U-Net,更简单、收敛速度更快并且内存效率更高。

作者进一步引入了DrawBench,这是一套用于文本到图像评估的新结构化文本提示。DrawBench通过文本到图像的多维评估实现更深入的洞察模型,带有旨在探测模型不同语义属性的文本提示。这些包括组合性、基数、空间关系、处理复杂文本提示或带有罕见词的提示的能力,并且它们包括创造性提示,这些提示将模型的能力极限推向训练数据范围之外生成高度难以置信的场景的能力。使用DrawBench,经过广泛的人类主观评估,可以得出结论:Imagen的性能明显优于其他同期工作。