Reusing Discriminators for Encoding: Towards Unsupervised Image-to-Image Translation

NICE-GAN: 把判别器重用为编码器的图像翻译模型.

paper：Reusing Discriminators for Encoding: Towards Unsupervised Image-to-Image Translation

无监督图像翻译是指学习多个图像域之间的映射关系，即给定边缘分布$p(X)$和$p(Y)$，学习条件映射$f_{x \to y}=p(Y|X)$和$f_{y \to x}=p(X|Y)$。目前常见的模型架构是通过编码器$E_x$和生成器$G_{x \to y}$实现图像的生成：

\[f_{x \to y}(x)= G_{x \to y} (E_x(x))\]

为了训练模型，引入判别器$D_x$区分真实图像和生成图像，以此构造对抗损失。

有一些方法是把编码器和生成器分开构造的，比如UNIT系列；而有一些方法是把生成器设计为编码器-解码器结构，比如CycleGAN系列。这些模型在训练完成后会丢弃判别器；而本文作者提出将判别器的一部分用作编码器，从而实现更紧凑的网络结构设计。

把判别器$D_x$拆分成编码器$E_x^D$和分类器$C_x^D$，则图像生成过程为：

\[f_{x \to y}(x)= G_{x \to y} (E_x^D(x))\]

NICE-GAN的训练流程与CycleGAN类似，训练两个生成器，$G_{X→Y}$实现从类型$X$转换成类型$Y$，$G_{Y→X}$实现从类型$Y$转换成类型$X$。训练两个判别器，$D_{X}$判断图像是否属于类型$X$；$D_{Y}$判断图像是否属于类型$Y$。

NICE-GAN的判别器采用多尺度形式，除了编码器结构外，还应用了多个尺度的分类器做了多层特征的判别。

NICE-GAN的生成器损失函数包括对抗损失(LSGAN)、L1循环一致性损失和L1重构损失；判别器的损失函数为对抗损失(LSGAN)。作者采用了解耦的训练过程，由于编码器是判别器的一部分，因此在训练生成损失时，不更新编码器的参数。

\[\begin{aligned} \mathop{\min}_{D_X=E_X\circ C_X,D_Y=E_Y\circ C_Y} & \Bbb{E}_{y \text{~} P_{data}(y)}[(D_Y(y)-1)^2] + \Bbb{E}_{x \text{~} P_{data}(x)}[(D_Y(G_{X \to Y}(E_X(x))))^2] \\ &+ \Bbb{E}_{x \text{~} P_{data}(x)}[(D_X(x)-1)^2] + \Bbb{E}_{y \text{~} P_{data}(y)}[(D_X(G_{Y \to X}(E_Y(y))))^2] \\ \mathop{ \min}_{G_{X \to Y},G_{Y \to X}} & \Bbb{E}_{x \text{~} P_{data}(x)}[(D_Y(G_{X \to Y}(E_X(x)))-1)^2]+\Bbb{E}_{y \text{~} P_{data}(y)}[(D_X(G_{Y \to X}(E_Y(y)))-1)^2] \\ &+ \Bbb{E}_{x \text{~} P_{data}(x)}[||G_{Y \to X}(E_Y(G_{X \to Y}(E_X(x))))-x||_1] \\ &+ \Bbb{E}_{y \text{~} P_{data}(y)}[||G_{X \to Y}(E_X(G_{Y \to X}(E_Y(y))))-y||_1] \\ &+ \Bbb{E}_{x \text{~} P_{data}(x)}[||G_{Y \to X}(E_X(x))-x||_1] \\ &+ \Bbb{E}_{y \text{~} P_{data}(y)}[||G_{X \to Y}(E_Y(y))-y||_1] \end{aligned}\]