CELU:连续可微的指数线性单元.

ELU激活函数具有许多优点,如加速训练,缓解梯度消失,使得平均激活近似为$0$等。然而由于参数$\alpha$不总是$1$,因此ELU不总是连续可微的:

\[\text{ELU}(x) = \begin{cases} x, & \text{if $x≥0$} \\ α(\exp{(x)}-1), & \text{if $x<0$} \end{cases}\] \[\frac{d}{dx}\text{ELU}(x) = \begin{cases} 1, & \text{if $x≥0$} \\ α\exp (x), & \text{if $x<0$} \end{cases}\]

作者提出了ELU的连续形式,即CELU

\[\text{CELU}(x) = \begin{cases} x, & \text{if $x≥0$} \\ α(\exp{(\frac{x}{\alpha})}-1), & \text{if $x<0$} \end{cases}\] \[\frac{d}{dx}\text{CELU}(x) = \begin{cases} 1, & \text{if $x≥0$} \\ \exp (x), & \text{if $x<0$} \end{cases}\]

CELU具有以下特点:

\[\text{CELU}(x,\alpha) =\frac{1}{c}\text{CELU}(cx,c\alpha)\] \[\mathop{\lim}_{\alpha → 0^+}\text{CELU}(x,\alpha) = \max(x,0)\]

当$\alpha → ∞$时CELU退化为线性函数:

\[\mathop{\lim}_{\alpha → ∞}\text{CELU}(x,\alpha) = x\]

因此CELUReLU和线性函数之间的折中。