LPTN:高分辨率真实感实时图像翻译.

1. 拉普拉斯金字塔 Laplacian Pyramid

首先介绍高斯金字塔(Gaussian Pyramid)。对于原始图像$G_0$,对其应用高斯模糊后下采样,得到尺寸减半的图像$G_1$;类似地,可以构造$G_2,G_3…$。下图给出了一个四阶高斯金字塔的结构。

拉普拉斯金字塔结构上与高斯金字塔类似,但每一层存储的不是高斯金字塔构造图像$G_i$,而是插值图像$L_i=G_i-rescale(G_{i+1})$;即先构造高斯金字塔图像$G_{i+1}$,然后与上一层的高斯金字塔图像$G_i$作差。

相比于存储原始图像$G_0$,存储插值图像$L_0,L_1,…$和顶部的高斯图像$G_N$需要更少的内存。这是因为插值图像的数值范围小,因此可以通过更少的比特数来存储像素;而且顶层高斯图像尺寸小。

拉普拉斯金字塔是可逆的,因此可以通过顶层高斯图像和每一层的插值图像无损地恢复原始图像。因此拉普拉斯金字塔是一种无损的图像压缩方法。

2. 拉普拉斯金字塔翻译网络 Laplacian Pyramid Translation Network

作者指出,给定两张具有相同内容和不同风格的图像,其图像的高频部分几乎是相同的,用于存储纹理和内容信息,在图像翻译过程中应该被保留;图像的低频部分则具有领域特定的风格信息,是在翻译过程中应该变化的部分。

基于该发现,作者构造了拉普拉斯金字塔翻译网络(Laplacian Pyramid Translation Network, LPTN)。将图像用拉普拉斯金字塔表示,其中不同层次中的拉普拉斯图像存储了图像中的高频内容信息,因此通过轻量的卷积网络做简单处理;网络顶层的高斯图像存储图像中的低频风格信息,通过一个相对复杂的网络进行处理。整体网络仍然是轻量型的,可以实现实时图像翻译。

网络底层的高斯图像通过堆叠$1\times 1$卷积、$3\times 3$残差块和$1\times 1$卷积变换到另一个图像域,并通过tanh激活函数生成另一个图像域中的低频高斯图像。

网络第二层的拉普拉斯图像与两个域的低频图像上采样后链接共同作为输入,通过一个较为简单的卷积网络($1\times 1$卷积、$3\times 3$残差块和$1\times 1$卷积)生成一个模板图像$M$,与输入拉普拉斯图像相乘后生成另一个图像域中的拉普拉斯图像。作者不直接生成拉普拉斯图像的原因是图像的高频内容不容易被卷积神经网络捕捉到,并且堆叠卷积层会导致图像模糊。

更底层的模板图像$M$是由上一层模板图像下采样并通过简单的卷积层构造的。

网络的损失函数包括重构损失和对抗损失。