ELU:消除偏差偏置的指数线性单元.

早期的激活函数如softmax,存在较长的饱和区,容易产生梯度消失问题。

ReLU解决了这一问题,但是其$x<0$时取值为$0$,造成dead ReLU问题,即若输入为负,则不会被激活,且梯度为零,从而在网络中失去作用。此外ReLU的输出是非负的(均值非$0$),会导致下一层的输入存在bias shift,即由于激活值不能相互抵消,会产生一个非$0$的偏差,并随着网络的深入造成偏差累积。

LeakyReLU等激活函数通过保留负值解决dead ReLU问题,但其对噪声的鲁棒性较差,在输入很小时是不连续的。

作者提出了指数线性单元(exponential linear unit,ELU),既能够进行bias shift correction(将输出的均值控制在$0$附近),又对输入噪声是鲁棒的。

ELU及其导数的表达式如下:

\[\text{ELU}(x) = \begin{cases} x, & \text{if $x≥0$} \\ α(e^x-1), & \text{if $x<0$} \end{cases}\] \[\text{ELU}'(x) = \begin{cases} 1, & \text{if $x≥0$} \\ \text{ELU}(x)+\alpha, & \text{if $x<0$} \end{cases}\]

其中$\alpha$控制ELU达到负饱和后的数值,注意到仅当$\alpha=1$时整个函数是连续的。

作者可视化了使用ELUReLU作为激活函数的网络每一层的激活值均值统计,使用ELU的网络每一层的激活值均值都非常接近$0$,这有助于网络更好的学习。