重新回顾DNA基础模型中的卷积结构.
0. TL; DR
本文介绍了一种名为ConvNova的卷积神经网络(CNN),用于DNA基础模型的研究。尽管Transformer和状态空间模型(SSM)在DNA建模领域取得了显著进展,但CNN作为一种经典的架构,仍然具有强大的竞争力。ConvNova通过引入三种关键设计:扩张卷积、门控卷积和双分支框架,在多个DNA基础模型基准测试中取得了优于或媲美最新方法的性能,同时在参数数量和计算速度上具有显著优势。该研究重新审视了CNN在DNA建模中的潜力,并展示了其在处理生物序列任务时的独特优势。
1. 背景介绍
DNA作为生命的基础代码,其序列信息的解析对于生物医学研究具有重要意义。近年来,随着深度学习技术的发展,基于Transformer和状态空间模型(SSM)的DNA语言模型取得了显著进展,例如DNABERT、Nucleotide Transformer和HyenaDNA等。这些模型在基因表达预测、DNA甲基化分析、染色质状态分析等任务中表现出色。然而,卷积神经网络(CNN)作为早期在生物信息学中广泛使用的模型,其在DNA建模中的潜力尚未得到充分挖掘。
CNN在处理DNA序列时具有独特的优势。首先,DNA序列的下游任务输入长度差异较大(从几十到数千不等),而Transformer对序列长度变化不够鲁棒。其次,Transformer的计算复杂度为$O(n²)$,远高于CNN。此外,CNN具有局部归纳偏差,能够更好地利用数据,尤其适合小数据量的任务。然而,目前的研究中,CNN与最新的Transformer和SSM方法之间的系统性比较仍然缺失。因此,本文提出了ConvNova,旨在重新评估CNN在DNA基础模型中的竞争力。
2. ConvNova 模型
ConvNova的整体架构如图所示。该模型通过卷积操作将DNA序列映射到隐空间,然后经过$N$个门控卷积块(Gated Convolution Blocks, GCBs),最后通过多层感知机(MLP)输出结果。在预训练和下游任务中,模型使用不同的输出头。
门控卷积的核心思想是通过一个可学习的动态特征选择机制,对每个通道的每个空间位置进行特征选择。具体来说,GCBs通过双分支结构实现独立的特征提取,促进互补的表示学习。假设左分支特征为$A ∈ R^{l×d}$,右分支特征为$B ∈ R^{l×d}$,则GCBs的计算过程如下:
- 左分支处理:首先对左分支特征$A$进行LayerNorm,然后通过扩张卷积层和GELU激活函数,得到中间特征$h= \text{GELU}(\text{DilatedConv}(A))$;
- 右分支处理:对右分支特征$B$进行LayerNorm,然后通过扩张卷积层和Sigmoid激活函数,得到中间特征$g= \sigma(\text{DilatedConv}(B))$;
- 特征更新:左分支特征$A$通过$h$和$g$的逐元素乘法进行更新,右分支特征$B$通过$g$进行更新:
这种双分支结构允许模型在特征提取过程中动态地选择和抑制信息,从而提高模型对DNA序列中相关信息的捕捉能力。
扩张卷积通过在卷积核中引入间隔,扩大了卷积操作的感受野,而无需进行下采样。这使得模型能够在不减少序列长度的情况下捕捉更广泛的上下文信息。在ConvNova中,每个GCB的扩张率设置为$[1, 1, d, d², d³, …]$,其中$d$是扩张步长。通过调整扩张步长,模型可以灵活地控制感受野的大小,从而适应不同任务的需求。
ConvNova采用双向掩码语言模型(MLM)进行预训练。在预训练过程中,模型随机掩码10%的核苷酸,并预测这些掩码位置的核苷酸类型。预训练数据集为HG38,与HyenaDNA保持一致。预训练完成后,模型在下游任务上进行微调。在微调阶段,模型使用与HyenaDNA相同的池化方法获取每个DNA序列的嵌入,并通过线性映射输出标签。
3. 实验分析
3.1 短序列任务
3.1.1 Nucleotide Transformer基准测试
ConvNova在Nucleotide Transformer基准测试中表现出色,显著优于其他Transformer和SSM模型。如表所示,ConvNova在18个任务中的12个任务上取得了最佳性能,尤其是在H3K4me3任务中,比第二好的方法高出10.5%。此外,ConvNova在大多数任务中使用的参数数量较少,计算速度更快。
3.1.2 基因组基准测试
在基因组基准测试中,ConvNova在5个任务上超过了基线模型,包括HyenaDNA和Caduceus-ph。例如,在小鼠增强子任务中,ConvNova的Top-1准确率达到0.784,优于HyenaDNA的0.779和Caduceus-ph的0.754。这表明ConvNova在处理短序列任务时具有强大的性能。
3.2 长序列任务
3.2.1 基因发现任务
基因发现任务的目标是预测DNA序列中的外显子、内含子、供体、受体和非编码区域。ConvNova在该任务中取得了最高的MCC分数0.55,显著优于其他模型。这表明ConvNova能够有效地捕捉长序列中的局部和长程依赖关系,从而实现更准确的基因注释。
3.2.2 染色质轮廓预测任务
染色质轮廓预测任务的目标是从DNA序列中预测染色质轮廓和表观遗传标记。ConvNova在该任务中也表现出色,超过了所有基线模型,包括DeepATT(之前该任务的最先进监督模型)。ConvNova的平均AUC分数达到92.25。
3.3 消融实验
3.3.1 扩张卷积与下采样
实验结果表明,扩张卷积在大多数任务中优于下采样结构。例如,在H3K4me1任务中,使用扩张卷积的ConvNova达到了56.37的F1分数,而使用下采样的模型仅为34.88。这表明扩张卷积更适合于DNA序列建模任务,能够更有效地捕捉上下文信息。
3.3.2 门控机制与双分支结构
消融实验结果表明,门控机制和双分支结构对ConvNova的性能至关重要。如表所示,在H3任务中,去掉门控机制的模型性能下降到78.96,而保留门控机制但去掉双分支结构的模型性能为80.95,完整的ConvNova模型性能最高,达到81.50。这表明门控机制和双分支结构能够显著提升模型的特征提取能力。
3.4 感受野大小的影响
实验结果表明,不同任务对感受野大小的需求存在显著差异。例如,在H3K4me2、H3K4me3和H3K14ac任务中,较小的感受野(约15%的输入长度)能够取得更好的分类精度。这可能与这些组蛋白标记在转录起始位点附近的富集特性有关。相反,在H3K9ac任务中,较大的感受野表现更好,这表明该标记在整个基因体上的分布较为均匀。此外,H3K4me2任务中较小的感受野也能取得较好的性能,这可能与其在基因中部的富集特性有关,但具体原因仍需进一步探索。