DNABERT:基因组DNA序列的预训练双向编码表示.
0. TL; DR
DNABERT是一种基于Transformer架构的预训练语言模型,专门用于解析DNA序列中的基因调控信息。通过预训练和微调,DNABERT能够在多种基因组学任务中实现卓越的性能,包括预测启动子、转录因子结合位点和剪接位点等。此外,DNABERT还提供了可视化工具DNABERT-viz,用于解释模型的决策过程和识别重要的DNA序列模式。该模型不仅在性能上超越了现有的工具,还展示了在跨物种应用中的潜力。
1. 背景介绍
DNA序列中隐藏着丰富的基因调控信息,这些信息对于理解基因表达的调控机制至关重要。然而,由于基因调控代码的高度复杂性,尤其是存在多义性和远距离语义关系,传统的生物信息学方法往往难以有效捕捉这些信息。近年来,随着深度学习技术的发展,卷积神经网络(CNN)和循环神经网络(RNN)被广泛应用于基因组学研究中,但它们在处理长距离依赖关系和数据稀缺场景时仍存在局限性。
为了克服这些挑战,研究者们开始探索将自然语言处理(NLP)中的Transformer架构应用于DNA序列分析。Transformer模型通过自注意力机制能够全局地捕捉上下文信息,从而更好地处理DNA序列中的复杂语义关系。DNABERT正是基于这种思想开发的,它通过预训练和微调的方式,为基因组学研究提供了一种强大的工具。
2. DNABERT 模型
DNABERT模型基于Transformer架构,采用双向编码器表示(BERT)来捕捉DNA序列的全局上下文信息。模型的输入是一组k-mer标记化的DNA序列,每个序列被嵌入为一个数值矩阵$M$。DNABERT通过多头自注意力机制处理$M$,具体公式如下:
\[\text{MultiHead}(M) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O\]其中,
\[\text{head}_i = \text{softmax}\left(\frac{M W^Q_i (M W^K_i)^T}{\sqrt{d_k}}\right) M W^V_i\]这里,$W^Q_i, W^K_i, W^V_i, W^O$是可学习的线性投影参数,$d_k$是缩放因子,$h$是注意力头的数量。DNABERT模型包含12个Transformer层,每层有768个隐藏单元和12个注意力头。
DNABERT的训练过程分为预训练和微调两个阶段。在预训练阶段,模型通过自监督学习从大量未标记的DNA序列中学习基本的语法和语义信息。具体来说,DNABERT随机掩码序列中15%的k-mer标记,并让模型预测这些掩码标记的内容。预训练的目标是最小化交叉熵损失:
\[L = \sum_{i=1}^N -y_i \log(\hat{y}_i)\]其中,$y_i$是真实标记,$\hat{y}_i$是模型预测的概率。
在微调阶段,DNABERT使用特定任务的标记数据进行训练,以适应不同的下游任务,如启动子预测、转录因子结合位点预测和剪接位点预测等。微调过程中,模型的参数会根据任务的具体需求进行调整,以达到最佳性能。
为了更好地捕捉DNA序列的上下文信息,DNABERT采用了k-mer标记化方法。具体来说,DNA序列被分割成长度为k的子序列(k-mer),每个k-mer被视为一个独立的标记。例如,对于k=3,DNA序列“ATGGCT”会被标记化为“ATG, TGG, GGC, GCT”。DNABERT模型支持$k=3、4、5、6$四种不同的标记化方式,每种方式都有其对应的词汇表。
为了提高模型的可解释性,DNABERT开发了DNABERT-viz工具,用于可视化模型的注意力机制和上下文关系。通过DNABERT-viz,研究者可以直观地观察到模型在预测过程中关注的DNA序列区域,以及这些区域之间的语义关系。这不仅有助于理解模型的决策过程,还可以识别出潜在的功能性DNA序列模式。
3. 实验分析
启动子预测是基因组学中的一个重要任务,DNABERT在这一任务上表现出色。研究者使用DNABERT-Prom模型对人类TATA和非TATA启动子进行了预测,并与现有的工具如DeePromoter、PromID、FPROM和FirstEF进行了比较。实验结果表明,DNABERT-Prom在准确率、F1分数和马修斯相关系数(MCC)等指标上均优于其他工具。
DNABERT-TF模型用于预测转录因子结合位点(TFBS),并使用ENCODE数据库中的690个转录因子ChIP-seq数据集进行了评估。实验结果表明,DNABERT-TF在准确率和F1分数上均优于现有的工具,如DeepBind、DeepSEA、Basset、DeepSite、DanQ和DESSO。DNABERT-TF不仅在高质量数据上表现出色,即使在低质量数据上也能保持较高的召回率。
剪接位点预测对于理解基因结构和可变剪接机制至关重要。DNABERT-Splice模型在这一任务上也取得了显著的性能提升。研究者使用包含供体、受体和非剪接位点的基准数据集进行了评估,DNABERT-Splice在准确率、F1分数和MCC等指标上均优于其他基线模型,如SpliceFinder。
DNABERT还被应用于识别功能性遗传变异。研究者使用dbSNP数据库中的约7亿个短变异进行了分析,发现位于DNABERT预测的高注意力区域内的变异在ClinVar、GRASP和NHGRI-EBI GWAS Catalog等数据库中的比例较高。这表明DNABERT能够有效地识别出可能影响基因调控的变异。
预训练是DNABERT成功的关键因素之一。研究者比较了预训练的DNABERT和随机初始化的DNABERT在启动子预测任务上的表现,发现预训练的DNABERT能够更快地收敛到更低的损失值。此外,预训练的DNABERT在跨物种应用中也表现出色,例如在小鼠ENCODE数据集上的表现优于其他基线模型。