RandConv: 通过随机卷积实现鲁棒和泛化的视觉表示学习.

本文作者提出了一种数据增强方法Random Convolution (RandConv),即使用多尺度的随机卷积处理图像,能在保留全局形状的同时随机改变纹理特征。

1. 尺度空间理论 Scale-Space Theory

如果要处理的图像中目标的尺度(scale)是未知的,则可以采用尺度空间理论。其核心思想是将图像用多种尺度表示,这些表示统称为尺度空间表示(scale-space representation)。其中线性(高斯)尺度空间使用最为广泛。

对图像用一系列高斯滤波器加以平滑,这些高斯滤波器的尺寸是不同的,就得到了该图像在不同尺度下的表示。记二维图像$f(x,y)$,二维高斯函数$g(x,y;t)=\frac{1}{2\pi t}e^{-\frac{x^2+y^2}{2t}}$,其中$t=\sigma^2$是尺度参数(scale parameter)。则线性尺度空间可以通过二者卷积得到:

\[L(\cdot,\cdot;t) = g(x,y;t) * f(x,y)\]

图像中尺度小于$\sqrt{t}$的结构会被平滑地无法分辨。因此$t$越大,平滑越剧烈。通常只会考虑$t\geq 0$的一些离散取值;当$t=0$时高斯滤波器退化为脉冲函数(impulse function),因此卷积的结果是图像本身,不作任何平滑。

2. 随机卷积 Random Convolution

RandConv通过随机地构造$k \times k$的高斯核构造输入图像的线性尺度表示。

$k$越大,则对局部纹理信息的破坏程度越大。

在训练时,既可以使用构造的线性尺度图像,也可以通过混合因子$\alpha$构造输入图像和线性尺度图像的混合图像:

作者在训练时对每张输入图像应用三次增强,并约束增强图像的一致性损失(Consistency Loss),即三张图像与其平均图像的KL散度。