从频率角度讨论卷积神经网络的泛化能力.

研究背景

作者首先提出了一个有趣的现象:在CIFAR10数据集上训练一个ResNet18分类模型。选择一张测试图片输入训练好的模型中,模型有很大的信心认为图片上的物体是“汽车”。

如果把这张图片经过傅里叶变换投影到频域中,然后选取一个半径,用这个半径把频域切分称低频域和高频域;然后利用切分之后的频域重新构建图片,其中第二行的蓝色汽车是低频重建的图片,而第三行的黑色块是高频重建的图片(高频重建的图片几乎全部是肉眼不可见的噪音)。

将这些重建的图片重新放回模型中,发现一个很有趣的现象:第二行肉眼看起来与原图相似的低频重建图片被预测成了“青蛙”;而第三行肉眼完全无法识别的图片被模型预测成了“汽车”,与原图预测结果一致。

作者提出论文的核心假设:在数据集中,图像的高频成分语义成分存在相关性。一个模型既能感知高频成分,也能感知语义成分;而人类主要感知语义成分,导致其泛化行为违背人类的直觉。

数据的标签可能同时和高频成分和语义成分关联。当训练模型时,如果没有指明模型应该学习数据的语义成分还是这些高频成分,模型可能会无差别地学习数据本身的信号或者这些高频信号,而这将使得对模型泛化能力的评估出现各种难以解释的现象。

从频率角度解释鲁棒性与准确率的权衡

假设数据$x$可以分解成低频成分$x_l$和高频成分$x_h$,这一过程可以通过傅里叶变换实现:

\[z = \scr{F}(x), \quad z_l,z_h = t(z;r)\] \[x_l = \scr{F}^{-1}(z_l), \quad x_h = \scr{F}^{-1}(z_h)\]

其中$t(z;r)$表示通过半径$r$将高频和低频部分分开的阈值函数。作者假设人类只能观察到低频部分$x_l$,并人为地给定标签:

\[y:=f(x;H)=f(x_l;H)\]

但卷积神经网络可以同时观察到低频成分和高频成分$x_l$、$x_h$,其对应的训练损失为:

\[\mathop{\arg \min}_{\theta} l(f(x; \theta),y) = \mathop{\arg \min}_{\theta} l(f(\{x_l,x_h\}; \theta),y)\]

定义模型的准确率(accuracy)为样本集中测试准确率的期望:

\[\mathbb{E}_{(x,y)} \alpha(f(x; \theta),y)\]

定义模型的鲁棒性(robustness)为被扰动的样本导致的最低准确率的期望:

\[\mathbb{E}_{(x',y)} \mathop{\min}_{x':d(x',x)< \epsilon} \alpha(f(x'; \theta),y)\]

由实验的经验可知,存在样本使得:$f(x; \theta)≠f(x_l; \theta)$。即总存在一个样本,使得模型不能既准确又鲁棒的分类。模型需要在准确率和鲁棒性之间权衡。

从频率角度解释模型对数据的学习

有学者指出,神经网络很容易学习标签混乱的数据,因此质疑神经网络是在记忆数据。作者认为,模型在训练中并不是简单的记忆数据,而是去做准确率和鲁棒性之间的权衡。对于一般标注的数据,模型先提取其低频信息,再逐渐提取其高频信息,以达到更高的训练精度;对于标签混乱的数据,模型同等对待低频和高频信息,开始选择“记忆”数据。

作者使用包含不同量低频信息的一般标注和标签混乱数据集进行实验。实验结果如下图所示,从结果中可以看出:

  1. 在标签混乱的数据集上,模型收敛更慢,说明模型想学到更多的信息,记忆数据只是无奈之举(就像学生在考试周学不会的时候才会选择去背题)。
  2. 模型在一般标注的数据集上学到更多的低频信息(相同低频信息量的条件下准确率更高),即模型 在一般标注的数据集上更倾向于学习低频信息,而在标签混乱数据集上同等对待低频和高频信息。

作者认为,人为标注数据集相当于人为建立了低频信息和标签之间的联系,所以在训练初期模型会优先学习低频信息。作者进一步分别用低频信息和高频信息训练并测试,发现在低频信息上训练的模型具有更强的泛化能力:

从频率角度分析模型训练技巧

作者从频率角度探究了batch大小对训练的影响。从下图的结果可以看出,小的batch可以提高准确率,而大的batch可以缩小泛化差距。大的batch中高频信息变化比较小,导致训练准确率和测试准确率之间差距更小。

作者从频率角度分析了不同训练技巧对结果的影响。从下图的结果可以看出,Dropout对准确率的影响不大;mix-up对其影响也不大,但它捕捉更多的高频信息;对抗攻击的准确率较低,是因为进行了准确率和鲁棒性的权衡,从而有更小的泛化差距(其高频信息基本不变)。

作者从频率角度分析了BatchNorm的重要性。从下图可以看出,BatchNorm能够重新分配不平衡的频率分量。

从频率角度分析对抗学习

对抗学习会在准确率与鲁棒性之间权衡,其卷积核会更光滑(如上图b)。卷积核越光滑,相邻权重之间差异小,卷积后的高频信息会变少。作者通过下述公式强行使得卷积核更光滑:

\[x_{i,j} = w_{i,j} + \sum_{(h,k) \in N(i,j)}^{} ρ w_{h,k}\]

通过实验发现对卷积核加上光滑约束后模型会变得更鲁棒。