加法神经网络

给定滤波器$F \in \Bbb{R}^{d \times d \times c_{in} \times c_{out}}$和输入特征$X \in \Bbb{R}^{H \times W \times c_{in}}$，其中$d$是滤波器的大小，$c_{in}$和$c_{out}$是输入和输出通道数，$H$和$W$是特征的高度和宽度。卷积神经网络的计算可以被表示为：

\[Y(m,n,t)=\sum_{i=0}^{d} {\sum_{j=0}^{d} {\sum_{k=0}^{c_{in}} {S(X(m+i,n+j,k),F(i,j,k,t))}}}\]

此时可以理解为卷积网络在度量特征和滤波器之间的相关性，其中$S$是距离度量函数。

当选择互相关作为距离度量函数时，有$S(x,y)=x \times y$，这就是通常使用的卷积运算，用来计算特征和卷积核之间的互相关性。特别地，当$d=1$时，公式表示全连接层的运算。

作者提出了一种只具有加法运算的度量函数，使用L1距离代替卷积计算。此时计算表示为：

\[Y(m,n,t)=-\sum_{i=0}^{d} {\sum_{j=0}^{d} {\sum_{k=0}^{c_{in}} {\mid X(m+i,n+j,k)-F(i,j,k,t) \mid }}}\]

优化方法

网络使用反向传播算法计算参数的梯度，并通过梯度下降法更新参数。AdderNet中输出特征$Y$对滤波器$F$的偏导数计算为：

\[\frac{\partial Y(m,n,t)}{\partial F(i,j,k,t)} = sgn(X(m+i,n+j,k)-F(i,j,k,t))\]

其中$sgn$代表符号函数。这样计算只有$\{-1,0,+1\}$三个值的输出，不能很好的反应输入特征$X$和滤波器$F$之间的距离关系，也不利于滤波器的优化。作者提出将符号函数去掉：

\[\frac{\partial Y(m,n,t)}{\partial F(i,j,k,t)} = X(m+i,n+j,k)-F(i,j,k,t)\]

使用改进方式计算的梯度更能表达输入特征$X$和滤波器$F$之间的距离大小关系，也更加有利于梯度的优化。

特别地，由于使用改进的梯度计算出的结果量级可能大于$1$，在对输入特征$X$求偏导数时，对其进行截断：

\[\frac{\partial Y(m,n,t)}{\partial X(m+i,n+j,k)} = HT(F(i,j,k,t)-X(m+i,n+j,k))\] \[HT(x) = \begin{cases} x, \quad \text{if }-1<x<1 \\ 1 \quad x>1 \\ -1 \quad x<-1 \end{cases}\]

其中$HT$为HardTanh函数，即将输出截断到$-1$到$+1$。如果不对$X$的梯度进行截断，多层的反向传播会使得改进梯度的量级和真实梯度的量级有着很大的累计误差，导致梯度爆炸。

自适应学习率调整

在训练卷积网络时，通常希望每一层的输出分布相似，使得网络的计算更加稳定。假设输入特征$X$和滤波器$F$都是标准正态分布，在卷积网络中输出特征的方差可以被计算为：

\[Var[Y_{CNN}] = \sum_{i=0}^{d} {\sum_{j=0}^{d} {\sum_{k=0}^{c_{in}} {Var[X \times F]}}} = d^2c_{in}Var[X]Var[F]\]

通过给定滤波器$F$初始化一个很小的方差，输出特征$Y$的方差可以被控制为和输入特征$X$相似。

在AdderNet中，输出特征的方差可以被计算为：

\[Var[Y_{AdderNet}] = \sum_{i=0}^{d} {\sum_{j=0}^{d} {\sum_{k=0}^{c_{in}} {Var[\mid X - F \mid]}}} = \sqrt{\frac{\pi}{2}} d^2c_{in}(Var[X]+Var[F])\]

对于AdderNet，无法给定滤波器$F$的方差使得输出特征的方差维持不变，于是输出特征的量级会大大高于输入特征，如果不对其进行归一化，将会导致输出的数量级随着网络的深度爆炸。

卷积网络通常用Batch Norm控制每层的特征量级相似，通过如下计算实现：

\[y = \gamma \frac{x-\mu_{B}}{\sigma_{B}} + \beta\]

其中$\gamma$和$\beta$是可学习的参数，$\mu_{B}$和$\sigma_{B}$是特征的均值和方差。在Batch Norm层，梯度被计算为：

\[\frac{\partial l}{\partial x_i} = \sum_{j=1}^{m} {\frac{\gamma}{m^2 \sigma_{B}}\{\frac{\partial l}{\partial y_i}-\frac{\partial l}{\partial y_i}[1+\frac{(x_i-x_j)(x_j-\mu_{B})}{\sigma_{B}}]\}}\]

由于AdderNet的方差很大，计算出的偏导数的量级会很小，对滤波器的梯度将会变的很小，不利于网络的训练：