GAN-QP:在对偶空间定义没有梯度消失且满足Lipschitz约束的目标.
一般地,GAN的目标函数的构造思路为:
- 寻找一种性质良好的概率散度;
- 找出它的对偶形式;
- 构建极小极大博弈。
在原空间中直接定义一个散度比较困难,且不能保证该散度容易转换为对偶形式。本文作者直接在对偶空间定义了满足散度的目标函数,并且验证该目标不会出现梯度消失现象,且满足Lipschitz约束。
1. 平方势散度
一般地,$p(x)$和$q(x)$之间的平方势散度 (QP-div,quadratic potential divergence)定义为:
\[\begin{aligned} D_{QP}[p || q] &= \mathop{ \max}_{f} \Bbb{E}_{(x_r,x_f) \text{~} p(x_r)q(x_f)}[f(x_r,x_f)-f(x_f,x_r) -\frac{(f(x_r,x_f)-f(x_f,x_r))^2}{2 \lambda d(x_r,x_f)} ] \\ &= \mathop{ \max}_{f} \iint_{x_r,x_f} p(x_r)q(x_f)[f(x_r,x_f)-f(x_f,x_r) -\frac{(f(x_r,x_f)-f(x_f,x_r))^2}{2 \lambda d(x_r,x_f)} ]dx_rdx_f \end{aligned}\]其中$\lambda > 0$,$d(x_r,x_f)$是任意距离。
⚪ 性质:无梯度消失
不妨假设$p(x) = \delta(x-\alpha)$,$q(x) = \delta(x-\beta)$,即分布$p(x)$和$q(x)$没有重叠。此时平方势散度为:
\[D_{QP}[p(x),q(x)] = \mathop{ \max}_{f} \{ f(\alpha,\beta)-f(\beta,\alpha) - \frac{(f(\alpha,\beta)-f(\beta,\alpha))^2}{2 \lambda d(\alpha,\beta)} \}\]令$g=f(\alpha,\beta)-f(\beta,\alpha)$,则上式转换为二次函数的最大值问题,对应的最大值为:
\[D_{QP}[p(x),q(x)] = \frac{1}{2 }\lambda d(\alpha,\beta)\]由此可知,即使分布不重叠,平方势散度仍然是有意义的,并且取值是光滑的,从而在优化时不会有梯度消失的风险。
⚪ 性质:Lipschitz连续
下面求平方势散度表达式的最优值:
\[\begin{aligned} &\nabla_f p(x_r)q(x_f)[f(x_r,x_f)-f(x_f,x_r) -\frac{(f(x_r,x_f)-f(x_f,x_r))^2}{2 \lambda d(x_r,x_f)} ] \\ &= p(x_r)q(x_f)[\nabla_ff(x_r,x_f)-\nabla_ff(x_f,x_r) \\& \quad -\frac{(f(x_r,x_f)-f(x_f,x_r))(\nabla_ff(x_r,x_f)-\nabla_ff(x_f,x_r))}{ \lambda d(x_r,x_f)} ] \\ &= p(x_r)q(x_f)\nabla_ff(x_r,x_f)-p(x_r)q(x_f)\nabla_ff(x_f,x_r) \\& \quad -p(x_r)q(x_f)\frac{f(x_r,x_f)-f(x_f,x_r)}{ \lambda d(x_r,x_f)}\nabla_ff(x_r,x_f) \\ &\quad +p(x_r)q(x_f)\frac{f(x_r,x_f)-f(x_f,x_r)}{ \lambda d(x_r,x_f)}\nabla_ff(x_f,x_r) \\ &= p(x_r)q(x_f)\nabla_ff(x_r,x_f)-p(x_f)q(x_r)\nabla_ff(x_r,x_f) \\& \quad -p(x_r)q(x_f)\frac{f(x_r,x_f)-f(x_f,x_r)}{ \lambda d(x_r,x_f)}\nabla_ff(x_r,x_f) \\ &\quad -p(x_f)q(x_r)\frac{f(x_r,x_f)-f(x_f,x_r)}{ \lambda d(x_r,x_f)}\nabla_ff(x_r,x_f) \end{aligned}\]令上式为零得:
\[\frac{p(x_r)q(x_f)-p(x_f)q(x_r)}{p(x_r)q(x_f)+p(x_f)q(x_r)} = \frac{f(x_r,x_f)-f(x_f,x_r)}{ \lambda d(x_r,x_f)}\]注意到上式满足:
\[-1 \leq \frac{f(x_r,x_f)-f(x_f,x_r)}{ \lambda d(x_r,x_f)} \leq 1\]因此最优值满足Lipschitz连续条件。
2. GAN-QP
基于平方势散度,作者构造了GAN-QP,目标函数如下:
\[\begin{aligned} D^* &\leftarrow \mathop{ \max}_{D} \Bbb{E}_{x_r \text{~} P_{data}(x), x_f \text{~} P_{G}(x)}[D(x_r,x_f)-D(x_f,x_r) -\frac{(D(x_r,x_f)-D(x_f,x_r))^2}{2 \lambda d(x_r,x_f)} ] \\ G^* & \leftarrow \mathop{ \min}_{G}\Bbb{E}_{x_r \text{~} P_{data}(x), x_f \text{~} P_{G}(x)}[D(x_r,x_f)-D(x_f,x_r)] \end{aligned}\]作者指出,二元函数$D(x_r,x_f)$取简单的一元特例$D(x_r,x_f)=D(x_r)$即可:
\[\begin{aligned} D^* &\leftarrow \mathop{ \max}_{D} \Bbb{E}_{x_r \text{~} P_{data}(x), x_f \text{~} P_{G}(x)}[D(x_r)-D(x_f) -\frac{(D(x_r)-D(x_f))^2}{2 \lambda d(x_r,x_f)} ] \\ G^* & \leftarrow \mathop{ \min}_{G}\Bbb{E}_{x_r \text{~} P_{data}(x), x_f \text{~} P_{G}(x)}[D(x_r)-D(x_f)] \end{aligned}\]作者报告了GAN-QP的性能: