WGAN的表现与Wasserstein距离的近似程度没有必然联系.

1. WGAN

Wasserstein GAN中,作者采用Wasserstein距离构造了GAN的目标函数,优化目标为真实分布Pdata和生成分布PG之间的Wasserstein距离:

minGmaxD,||D||LK{Ex~Pdata(x)[D(x)]Ex~PG(x)[D(x)]}

或写作交替优化的形式:

θDargmaxθD1ni=1nD(xi)1ni=1nD(G(zi))θGargminθG1ni=1nD(G(zi))

其中要求判别器DKLipschitz连续的,即应满足:

|D(x1)D(x2)|K|x1x2|

2. WGAN的表现与Wasserstein距离的近似程度没有必然联系

本文作者指出,WGAN经过训练后并没有很好地近似Wasserstein距离;相反如果对Wasserstein距离做更好的近似,效果反而会变差。

作者首先比较了c-transform WGANWGAN-GP的实际表现,其中前者比后者能够更好地近似Wasserstein距离,训练曲线也能体现这一点:

然而前者的表现却不如后者:

因此得到如下结论:

⚪ 原因1:交替训练

WGAN的目标函数:

(D,G)minGmaxD,DLKEx~Pdata(x)[D(x)]Ex~PG(x)[D(x)]

上述目标函数只有先精确完成maxD,然后再进行minG,才相当于优化两个分布的Wasserstein距离;在实际训练时采用交替优化,理论上不可能精确逼近分布度量。

⚪ 原因2:批量训练

WGAN在训练时采用批量训练的方法,导致目标为最小化训练集中两个批量之间的Wasserstein距离,该目标仍然大于一个批量与训练集平均样本之间的Wasserstein距离。

作者展示了真实样本、平均样本和样本聚类中心,结果显示真实样本对应的Wasserstein距离反而是最大的。

⚪ 原因3:成本函数

Wasserstein距离定义如下:

W[p,q]=infγΠ[p,q]γ(x,y)d(x,y)dxdy

其中样本之间的距离度量函数d(x,y)一般选择欧氏距离xy2。欧氏距离在衡量两张图像的相似程度时在视觉效果上是不合理的;两张相似的图像对应的欧氏距离不一定小。

作者指出,通过精确的Wasserstein距离(c-transform WGAN)获得的结果跟k-means方法的聚类中心类似,而后者也是使用欧氏距离作为度量:

⚪ WGAN为什么能成功?

作者认为,WGAN成功的关键是引入了Lipschitz约束。