基于热传导方程的自监督学习.

本文提出用热传导方程来做图像领域的自监督学习。物理的热传导方程为:

\[\frac{\partial u}{\partial t} = \frac{\partial^2 u}{\partial x^2}+\frac{\partial^2 u}{\partial y^2}\]

下图左边是热传导方程的解,右端是CAM显著性方法得到的热力图,可以看到两者有一定的相似之处,于是作者认为热传导方程可以作为好的视觉特征的一个重要先验。

热传导方程中$x,y$对应图像的“宽”和“高”两个维度,$u$对应该处的特征值。由于本文主要做的是静态图像而不是视频,所以没有时间维度$t$,为此可以简单地让$∂u/∂t=0$。由于特征通常是多维向量而不是标量,所以将$u$替换为$z$,得到:

\[\frac{\partial^2 z}{\partial x^2}+\frac{\partial^2 z}{\partial y^2} = 0\]

上式被称为“拉普拉斯方程”,它是各向同性的,而图像并不总是各向同性的,所以可以补充一个$S$矩阵,来捕捉这种各向异性:

\[\frac{\partial^2 z}{\partial x^2}+S\frac{\partial^2 z}{\partial y^2} = 0\]

上式是一个二阶方程,在离散化上会比较麻烦,所以作者提出进一步将它转化为一阶方程组:

\[\frac{\partial z}{\partial x}=Az, \quad \frac{\partial z}{\partial y} = Bz\]

不难发现只要取$S=-A^2(B^2)^{-1}$,则上述两式具有公共解。上述方程的离散化格式:

\[z(x+\Delta x, y) \approx z(x,y) + \Delta x A z(x,y) = (I+\Delta x A) z(x,y)\\ z(x, y+\Delta y) \approx z(x,y) + \Delta y B z(x,y) = (I+\Delta y B) z(x,y)\]

若把$z(x,y)$看作图像特征,则原始图像经过编码器后得到的特征应该满足上述方程组,即可以通过当前位置的特征来预测邻近位置的特征。上式也表明邻近的特征向量之间可以通过同一个线性变换来建模。

基于此作者提出了QB-Heat自监督框架,每次只输入一小部分图像,经过编码器后得到对应的特征,通过上述方程组来预测完整图像的特征,然后将特征传入一个较小的解码器来重建完整图像。

QB-Heat只能通过中心来预测四周,因此QB-Heatmask方式就只能是保留一块连续的方形区域而mask四周,如下图所示。

也正是因为QB-Heat的输入是原始图像的一块连续子图,所以它的编码器既可以用Transformer也可以纯卷积神经网络模型来搭建。比如通过简单的1x1卷积进行设计:

QB-Heat通过连续性和线性性假设给特征向量做了显式预测,从而起到了隐式的正则化作用。实验结果表明,通过QB-Heat预训练后的模型在下游任务(目标检测)上具有较好的直接表现: