GAN-QP：在对偶空间定义没有梯度消失且满足Lipschitz约束的目标.

paper：GAN-QP: A Novel GAN Framework without Gradient Vanishing and Lipschitz Constraint

一般地，GAN的目标函数的构造思路为：

寻找一种性质良好的概率散度；
找出它的对偶形式；
构建极小极大博弈。

在原空间中直接定义一个散度比较困难，且不能保证该散度容易转换为对偶形式。本文作者直接在对偶空间定义了满足散度的目标函数，并且验证该目标不会出现梯度消失现象，且满足Lipschitz约束。

1. 平方势散度

一般地，$p(x)$和$q(x)$之间的平方势散度 (QP-div，quadratic potential divergence)定义为：

\[\begin{aligned} D_{QP}[p || q] &= \mathop{ \max}_{f} \Bbb{E}_{(x_r,x_f) \text{~} p(x_r)q(x_f)}[f(x_r,x_f)-f(x_f,x_r) -\frac{(f(x_r,x_f)-f(x_f,x_r))^2}{2 \lambda d(x_r,x_f)} ] \\ &= \mathop{ \max}_{f} \iint_{x_r,x_f} p(x_r)q(x_f)[f(x_r,x_f)-f(x_f,x_r) -\frac{(f(x_r,x_f)-f(x_f,x_r))^2}{2 \lambda d(x_r,x_f)} ]dx_rdx_f \end{aligned}\]

其中$\lambda > 0$，$d(x_r,x_f)$是任意距离。

⚪ 性质：无梯度消失

不妨假设$p(x) = \delta(x-\alpha)$，$q(x) = \delta(x-\beta)$，即分布$p(x)$和$q(x)$没有重叠。此时平方势散度为：

\[D_{QP}[p(x),q(x)] = \mathop{ \max}_{f} \{ f(\alpha,\beta)-f(\beta,\alpha) - \frac{(f(\alpha,\beta)-f(\beta,\alpha))^2}{2 \lambda d(\alpha,\beta)} \}\]

令$g=f(\alpha,\beta)-f(\beta,\alpha)$，则上式转换为二次函数的最大值问题，对应的最大值为：

\[D_{QP}[p(x),q(x)] = \frac{1}{2 }\lambda d(\alpha,\beta)\]

由此可知，即使分布不重叠，平方势散度仍然是有意义的，并且取值是光滑的，从而在优化时不会有梯度消失的风险。

⚪ 性质：Lipschitz连续

下面求平方势散度表达式的最优值：

\[\begin{aligned} &\nabla_f p(x_r)q(x_f)[f(x_r,x_f)-f(x_f,x_r) -\frac{(f(x_r,x_f)-f(x_f,x_r))^2}{2 \lambda d(x_r,x_f)} ] \\ &= p(x_r)q(x_f)[\nabla_ff(x_r,x_f)-\nabla_ff(x_f,x_r) \\& \quad -\frac{(f(x_r,x_f)-f(x_f,x_r))(\nabla_ff(x_r,x_f)-\nabla_ff(x_f,x_r))}{ \lambda d(x_r,x_f)} ] \\ &= p(x_r)q(x_f)\nabla_ff(x_r,x_f)-p(x_r)q(x_f)\nabla_ff(x_f,x_r) \\& \quad -p(x_r)q(x_f)\frac{f(x_r,x_f)-f(x_f,x_r)}{ \lambda d(x_r,x_f)}\nabla_ff(x_r,x_f) \\ &\quad +p(x_r)q(x_f)\frac{f(x_r,x_f)-f(x_f,x_r)}{ \lambda d(x_r,x_f)}\nabla_ff(x_f,x_r) \\ &= p(x_r)q(x_f)\nabla_ff(x_r,x_f)-p(x_f)q(x_r)\nabla_ff(x_r,x_f) \\& \quad -p(x_r)q(x_f)\frac{f(x_r,x_f)-f(x_f,x_r)}{ \lambda d(x_r,x_f)}\nabla_ff(x_r,x_f) \\ &\quad -p(x_f)q(x_r)\frac{f(x_r,x_f)-f(x_f,x_r)}{ \lambda d(x_r,x_f)}\nabla_ff(x_r,x_f) \end{aligned}\]

令上式为零得：

\[\frac{p(x_r)q(x_f)-p(x_f)q(x_r)}{p(x_r)q(x_f)+p(x_f)q(x_r)} = \frac{f(x_r,x_f)-f(x_f,x_r)}{ \lambda d(x_r,x_f)}\]

注意到上式满足：

\[-1 \leq \frac{f(x_r,x_f)-f(x_f,x_r)}{ \lambda d(x_r,x_f)} \leq 1\]

因此最优值满足Lipschitz连续条件。

2. GAN-QP

基于平方势散度，作者构造了GAN-QP，目标函数如下：

\[\begin{aligned} D^* &\leftarrow \mathop{ \max}_{D} \Bbb{E}_{x_r \text{~} P_{data}(x), x_f \text{~} P_{G}(x)}[D(x_r,x_f)-D(x_f,x_r) -\frac{(D(x_r,x_f)-D(x_f,x_r))^2}{2 \lambda d(x_r,x_f)} ] \\ G^* & \leftarrow \mathop{ \min}_{G}\Bbb{E}_{x_r \text{~} P_{data}(x), x_f \text{~} P_{G}(x)}[D(x_r,x_f)-D(x_f,x_r)] \end{aligned}\]

作者指出，二元函数$D(x_r,x_f)$取简单的一元特例$D(x_r,x_f)=D(x_r)$即可：

\[\begin{aligned} D^* &\leftarrow \mathop{ \max}_{D} \Bbb{E}_{x_r \text{~} P_{data}(x), x_f \text{~} P_{G}(x)}[D(x_r)-D(x_f) -\frac{(D(x_r)-D(x_f))^2}{2 \lambda d(x_r,x_f)} ] \\ G^* & \leftarrow \mathop{ \min}_{G}\Bbb{E}_{x_r \text{~} P_{data}(x), x_f \text{~} P_{G}(x)}[D(x_r)-D(x_f)] \end{aligned}\]

作者报告了GAN-QP的性能：