Designing GANs:在对偶空间设计生成对抗网络.

1. 基于分布散度的GAN设计

分布散度 $D[p,q]$是关于概率分布$p(x)$和$q(x)$的标量函数,并且满足:

分布散度可以用于衡量两个概率分布的距离。在GAN的设计中,可以通过构造真实数据分布\(P_{data}(x)\)和生成分布\(P_G(x)\)之间的分布散度来设计目标函数;然而由于分布的形式通常是未知的,因此散度无法直接求解,需要转换到对偶空间中进行处理。一般流程如下:

  1. 寻找合适的概率分布散度;
  2. 通过凸函数的共轭函数将散度转化为对偶形式(带$\max$的形式);
  3. 最小化该散度的对偶形式,从而得到一个$\min$-$\max$过程。

本文作者指出,可以直接在对偶空间中设计散度的形式,从而设计GAN模型。

2. 对偶空间中概率散度的构建方法

在对偶空间中构造散度的方法是,寻找函数$\phi(t),\psi(t)$以及某个值域$\Omega$,从而构造散度:

\[d(p,q) = \mathop{\max}_{t \in \Omega} p \phi(t)+q\psi(t)\]

并且满足$d(p,q) \geq 0$以及$d(p,q)=0 \leftrightarrow p=q$。

则可以进一步构造GAN的目标函数:

\[\mathop{\min}_{q(x)} \int d(p(x),q(x))dx = \mathop{\min}_{q(x)} \mathop{\max}_{t(x) \in \Omega} \Bbb{E}_{x\text{~}p(x)}[ \phi(t(x))]+ \Bbb{E}_{x\text{~}q(x)}[\psi(t(x))]\]

其中$p(x)$代表真实数据分布\(P_{data}(x)\),$q(x)$代表生成器$G$构造的生成分布\(P_G(x)\),$t(x)$由判别器$D$实现。

设$r=q/p \in [0, + \infty)$,则散度形式进一步表示为:

\[d(r) = \mathop{\max}_{t \in \Omega} \phi(t)+r\psi(t)\]

并且最小值$d(r)=0$在$r=1$时取得。下面求$\phi(t)+r\psi(t)$的最大值:

\[\phi'(t)+r\psi'(t)=0\]

记上述方程的解为$t=w(r)$,则有:

\[r = - \frac{\phi'(t)}{\psi'(t)} = w^{-1}(t)\]

$r$的取值范围是$[0, + \infty)$,则$t$的取值范围是$\Omega=w([0, + \infty))$。$w^{-1}$为$w$的反函数,因此应具有单调性,不妨设满足严格单调递增。

上述极值点$t=w(r)$若为极大值点,一阶导数$\phi’(t)+r\psi’(t)=(r- w^{-1}(t))\psi’(t)$应先正后负,则要求$\psi’(t)>0$。

记$\rho(t)=\psi’(t)$是恒正的,$t=w(r)$是严格单调递增的,且存在如下关系:

\[\begin{aligned} \phi'(t) &= -r \rho(t) \\\psi'(t) &= \rho(t) \end{aligned}\]

则散度形式进一步表示为:

\[d(r) = \phi(w(r))+r\psi(w(r))\]

下面讨论如何限制最小值$d(r)=0$在$r=1$时取得。对上式求导:

\[\begin{aligned} d'(r) &= \phi'(w(r))w'(r)+\psi(w(r)) + r\psi'(w(r))w'(r) \\ &= [\phi'(w(r))+r\psi'(w(r))] w'(r)+\psi(w(r)) \\ &= \psi(w(r)) \end{aligned}\]

若$d(r)$在$r=1$处取得极值,则应有$\psi(w(1))=0$。

综上所述,在对偶空间直接构建概率散度的方法如下:

寻找函数$\phi(t),\psi(t)$以及某个值域$\Omega$,并且满足以下关系:

\[\begin{aligned} \phi'(t) &= -w^{-1}(t) \rho(t) \\\psi'(t) &= \rho(t) \end{aligned}\]

且存在以下条件:

  1. $t=w(r)$严格单调递增;
  2. $\Omega=w([0, + \infty))$;
  3. $\rho(t)$在$t \in \Omega$是恒正的;
  4. $\psi(w(1))=0$。

则可以构造GAN的目标函数:

\[\mathop{\min}_{q(x)} \mathop{\max}_{t(x) \in \Omega} \Bbb{E}_{x\text{~}p(x)}[ \phi(t(x))]+ \Bbb{E}_{x\text{~}q(x)}[\psi(t(x))]\]