高效扩张率搜索的Inception卷积.

在不同的任务中,由于输入图像的大小差异和感兴趣对象的尺度范围不同,对感受野的要求也不同,需要针对不同的任务提出一种通用的、实用的感受野优化算法。

扩张卷积(Dilation convolution)是标准卷积神经网络的变体,可以控制有效的感受野而无需引入额外的计算。扩张卷积核的扩张率是一个非常有效的超参数,可以调节不同任务之间的有效感受野分布。

本文提出了一种新的扩张卷积变体,即inception卷积,其中每个轴、每个通道和每个卷积层的扩张率都是独立定义的,提供了一个密集的有效感受野范围。

为了探索一种将复杂的初始卷积拟合到数据的实用方法,对于搜索空间的优化,本文主要参考了神经结构搜索(NAS)中的工作,它能够自动优化神经网络操作符组合。考虑一个完整的扩张域,对每个通道中的两个轴有独立的扩张率,其形式上表示为:

\[d = \{ d_x^i,d_y^i \mid d_x^i,d_y^i \in 1,2,...,d_{\max},i=1,2,...,C^{out} \}\]

其中$d_x^i$和$d_y^i$是滤波器在第$i$个输出通道的$x$轴和$y$轴上的扩张率,$C^{out}$为输出通道数。

本文的目标是开发出一种新的算法,通过选择集合$d$来有效地拟合不同任务之间的有效感受野。具体地,本文开发了一种基于统计优化的简单而高效的扩张搜索算法(EDO,effective dilation search)。该搜索方法以零成本方式运行,可以极其快速地应用于大规模数据集。

EDO中,超网络的每一层都是一个标准的卷积操作,其内核覆盖了所有可能的扩张模式。在对超网络进行预训练后,通过求解一个统计优化问题,为每个卷积层中的每个通道选择扩张模式。对于每一层,通过原始卷积层的输出期望与裁剪出来的与所选扩张模式的扩张卷积的L1误差最小,使用预先训练好的权值来解决选择问题。

对于任意核大小为$2k+1$的卷积层,在超网络中将其替换为$2kd_{\max}+1$,即涵盖了所有候选扩张率的最大宽度和高度。超网络在给定的任务上进行了预训练。

对于每一个权值为$W^i \in R^{C_{in}\times (2kd_{\max}+1)^2}$的卷积核,从其中裁剪出来扩张卷积核$W^i_d \in R^{C_{in}\times (2k+1)^2}$,其位置由$d_x^i,d_y^i$确定。将扩张率选择表述为一个优化问题,在此问题中,预训练的卷积核权值$W$的输出期望与裁剪的扩张卷积权值$W_d$之间的L1误差最小,表达为:

\[\begin{aligned} \mathop{\min}_d & \quad || E[WX]-E[W_dX] ||_1 \\ \text{s.t.} & \quad d_x^i,d_y^i \in 1,2,...,d_{\max} \end{aligned}\]