High-Resolution Image Synthesis with Latent Diffusion Models

通过隐扩散模型实现高分辨率图像合成.

paper：High-Resolution Image Synthesis with Latent Diffusion Models
code：Stable Diffusion

扩散模型是一类隐变量模型，其隐变量通常具有较高的维度（与原始图像相同的维度），因此扩散模型的计算负担非常大。考虑一张尺寸为$512\times 512$的RGB图像，其具有$786432$维，因此直接在图像空间中训练扩散模型是昂贵的。

观察到图像的大多数像素提供的是感知细节，对图像进行像素压缩后仍然能保持图像的语义和概念细节，因此可以考虑在生成模型建模的过程中引入感知压缩(perceptual compression)和语义压缩(semantic compression)：首先通过自编码器压缩像素级的冗余，然后通过在隐空间中执行扩散过程学习语义概念。

隐扩散模型（latent diffusion model）没有直接在高维图像空间中操作，而是首先把图像压缩到隐空间，再在隐空间中构造扩散过程；压缩过程是通过VQ-VAE实现的。编码器$\mathcal{E}$把输入图像$x \in \mathbb{R}^{H\times W\times 3}$压缩为隐空间向量$z= \mathcal{E}(x)\in \mathbb{R}^{h\times w\times c}$，其空间尺寸下采样率$f=H/h=W/w=2^m$；解码器$\mathcal{D}$从隐空间向量中恢复原始图像$\tilde{x}=\mathcal{D}(z)$。

以Stable Diffusion v1为例，其使用隐扩散模型的隐空间尺寸为$4\times 64\times 64$，比图像空间（$512\times 512$）小$48$倍。