GANILLA:把图像转换为儿童绘本风格.

GANNILLA提出了一种从自然图像到儿童读物插画的风格迁移方法,能够在保持原始图像内容的前提下迁移给定艺术家风格。

与艺术画或者卡通图像不同,儿童读物插图虽然也有诸如高山、人物、玩具、树木等这些常见物体,但其抽象程度更高,现有方法很难在风格和内容之间取得好的平衡。如CycleGAN虽然能够迁移艺术家的风格,但是无法成功迁移内容;DualGAN虽然能够保留输入图片的内容,却无法很好的迁移风格。 GANNILLA则能够在插图图像域中同时保留图像内容和风格。

作者构建了一个儿童绘本图像数据集,包含363种不同儿童书籍和24个不同艺术家的9448张插图。

GANNILLA的主体结构与CycleGAN类似,训练了两个结构为ResNet的生成器,\(G_{X→Y}\)实现从类型$X$转换成类型$Y$,\(G_{Y→X}\)实现从类型$Y$转换成类型$X$,损失函数包括对抗损失和循环一致性损失;训练两个结构为PatchGAN的判别器,\(D_{X}\)判断图像是否属于类型$X$;\(D_{Y}\)判断图像是否属于类型$Y$,损失函数为对抗损失。

在图像转换到插图问题的初步实验中,作者观察到当前基于未配对数据的图像到图像翻译模型如CycleGAN, DualGAN, CartoonGAN等都无法同时迁移图像的风格和内容。因此作者重新设计了生成器的网络结构,能够在保留输入图像内容的同时迁移风格。

生成器的网络结构如下,包括一个下采样阶段和一个上采样阶段:

下采样阶段是经过修改的ResNet-18网络,为了在下采样阶段集成浅层特征,作者在下采样的每一层将来自先前各层的特征进行拼接,由于浅层网络包含诸如形态学特征、边缘、形状等信息,因此它们可以确保迁移后的图像含有输入内容的子结构。

下采样阶段从一个核为$7\times 7$的卷积层开始,紧跟着实例归一化、ReLU和最大池化层。然后继续应用四个网络层,每一层包含两个残差块,每个残差块都从一个卷积层开始,后面接着实例归一化和ReLU层。最后是一个卷积层+实例归一化,并将输出和残差块的输入进行拼接。最后再将拼接的张量输入最后一个卷积和ReLU层。作者在除了Layer-I以外的其他层使用步长为2的卷积层以将特征图大小减半。残差层中所有卷积层的核均为$3\times 3$。

在上采样阶段,作者将下采样阶段每一个网络层的输出建立跳跃连接,在进行上采样运算之前将这些浅层特征送入求和层,这些连接有助于保留图片内容。

上采样阶段包含四个连接的卷积、上采样和求和层。首先Layer-IV的输出通过卷积和上采样层来增加特征图大小,以匹配上一层的特征图尺寸。所有上采样阶段的卷积滤波核的大小为$1\times 1$。最后再使用一个核为$7\times 7$的卷积层来生成转换后的三通道图像。

作者对比GANNILLA与其余基于未配对数据的图像到图像翻译模型(CycleGAN, DualGAN, CartoonGAN)。

从图中可以看出,使用卷积层进行下采样再使用转置卷积层进行上采样是一种常见的策略。CycleGANCartoonGAN在下采样和上采样层之间还有带有加性连接的残差层。

GANNILLA的生成器采用非对称结构,使用带有拼接连接的残差层,并使用上采样算子代替转置卷积层。作者额外设计了两个对比模型,用于理解下采样和上采样部分浅层特征的效果。第一个对比模型将拼接连接替换为加性连接,以观察下采样部分浅层特征的重要性。第二个对比模型将上采样算子替换为转置卷积层,以测试上采样部分浅层特征的有效性。