CELU:连续可微的指数线性单元.
- paper:Continuously Differentiable Exponential Linear Units
- arXiv:link
ELU激活函数具有许多优点,如加速训练,缓解梯度消失,使得平均激活近似为$0$等。然而由于参数$\alpha$不总是$1$,因此ELU不总是连续可微的:
\[\text{ELU}(x) = \begin{cases} x, & \text{if $x≥0$} \\ α(\exp{(x)}-1), & \text{if $x<0$} \end{cases}\] \[\frac{d}{dx}\text{ELU}(x) = \begin{cases} 1, & \text{if $x≥0$} \\ α\exp (x), & \text{if $x<0$} \end{cases}\]作者提出了ELU的连续形式,即CELU:
\[\text{CELU}(x) = \begin{cases} x, & \text{if $x≥0$} \\ α(\exp{(\frac{x}{\alpha})}-1), & \text{if $x<0$} \end{cases}\] \[\frac{d}{dx}\text{CELU}(x) = \begin{cases} 1, & \text{if $x≥0$} \\ \exp (x), & \text{if $x<0$} \end{cases}\]CELU具有以下特点:
- 连续可微 continuously differentiable
- 导数有界 bounded derivative:注意到CELU的导数数值不会超过$1$,而ELU的导数上界为$\alpha$。
- 尺度相似 scale-similar:
- 包含ReLU和线性函数:当$\alpha → 0^+$时CELU退化为ReLU:
当$\alpha → ∞$时CELU退化为线性函数:
\[\mathop{\lim}_{\alpha → ∞}\text{CELU}(x,\alpha) = x\]因此CELU是ReLU和线性函数之间的折中。