深度学习中的组归一化方法.

Batch Norm已经证明对深度网络中的特征进行归一化能够加速训练。作者研究VGG网络的Conv5_3卷积层特征,将其特征数值按从小到大进行排列,在训练中绘制第1、20、80和99个特征值的变化:

由上图发现,当不引入归一化方法时,特征的变化很大;引入归一化方法能够控制特征的分布,使其更接近正态化。

Batch Norm最大的问题在于依赖于batch size,当batch size较小的时候计算统计量会有比较大的偏差,从而影响结果。作者提出了Group Norm,对每一个样本的一组特征通道计算统计量,其几乎不会受到batch size的影响:

几种不同的Norm方法实现如下,其中$N$是批量轴 batch axis, $C$是通道轴 channel axis, $(H, W)$是空间轴 spatial axes

tensorflow形式的Group Norm实现如下,实现过程非常简单:

Group Norm的一个弊端是额外引入了超参数$G$: