DNA语言模型是非编码变异效应的强大零样本预测器.
0. TL; DR
本文介绍了一种名为GPN(Genomic Pre-trained Network)的DNA语言模型,它通过在基因组DNA序列上进行无监督预训练,能够零样本预测非编码变异效应。GPN不仅能够学习基因结构和DNA基序,还在拟南芥(Arabidopsis thaliana)中超越了基于大量功能基因组数据训练的监督学习模型(如DeepSEA),以及基于多物种保守性计算的流行保守性评分(如phyloP和PhastCons)。该模型仅依赖于单个基因组的DNA序列,无需昂贵的功能基因组数据,为非编码变异效应预测提供了一种强大的新方法。
1. 背景介绍
非编码变异(non-coding variants)是指发生在基因编码区之外的DNA序列变异。这些变异虽然不直接改变蛋白质的氨基酸序列,但可能影响基因的表达调控,从而导致疾病或性状的变化。然而,由于非编码区域的复杂性和功能机制的不明确,准确预测非编码变异的效应一直是基因组学研究中的一个重大挑战。
传统的非编码变异效应预测方法主要依赖于监督学习模型,这些模型需要大量的标记数据(如功能基因组数据)进行训练。然而,对于大多数物种来说,获取如此大规模的功能基因组数据是极其昂贵且耗时的。此外,基于保守性评分的方法虽然在某些情况下有效,但它们依赖于多物种基因组比对,对于一些进化快速或缺乏近缘物种的物种来说,效果有限。
近年来,自然语言处理(NLP)领域的发展为生物信息学带来了新的思路。预训练语言模型(如BERT)在处理文本数据时表现出色,能够通过在大规模未标记文本上进行无监督学习,提取复杂的语言模式。受此启发,研究人员开始探索将类似的预训练方法应用于生物序列(如蛋白质和DNA)的建模。例如,基于蛋白质序列的预训练模型已在错义变异效应预测中取得了显著进展。然而,对于非编码DNA序列,类似的零样本预测方法尚未取得突破。
2. GPN 模型
GPN(Genomic Pre-trained Network)是一种基于卷积神经网络(CNN)的DNA语言模型,专门用于预测非编码变异效应。该模型通过在大规模基因组DNA序列上进行无监督预训练,学习基因组的结构和功能模式。GPN的核心思想是利用基因组序列的局部上下文信息来预测被遮蔽的核苷酸,从而提取基因组的内在规律。
GPN的输入是一个长度为512个碱基对(bp)的DNA序列,每个位置对应一个核苷酸(A、C、G或T),其中15%的核苷酸位置被随机遮蔽(mask),用特殊标记(如?
)替换。模型的目标是根据上下文信息预测这些被遮蔽的核苷酸。
模型由30个卷积块组成,每个卷积块包含一个扩张卷积层(dilated convolutional layer)和一个前馈层(feed-forward layer)。扩张卷积层通过增加卷积核的覆盖范围来捕捉更广泛的上下文信息,而前馈层则进一步处理这些信息。每个卷积块之间通过残差连接(residual connection)和层归一化(layer normalization)来改善训练过程中的信息流动。
经过卷积网络处理后,模型输出每个遮蔽位置的四个核苷酸的概率分布。模型通过最小化交叉熵损失函数(cross-entropy loss)进行训练,即预测的核苷酸分布与真实核苷酸的分布之间的差异。
在预测非编码变异效应时,GPN采用零样本预测策略。具体来说,对于一个给定的单核苷酸多态性(SNP),模型将变异位点遮蔽,并计算变异等位基因(alternate allele)与参考等位基因(reference allele)之间的对数似然比(log-likelihood ratio)。这个对数似然比即为GPN的变异效应预测分数(GPN score),用于衡量变异的潜在致病性。
GPN的主要优势在于其无监督预训练策略。与传统的监督学习方法相比,GPN不需要大量的标记数据,仅依赖于基因组序列本身。这使得它能够应用于那些缺乏功能基因组数据的物种。此外,GPN能够学习基因组的全局结构,包括基因结构、DNA基序等,从而提供更全面的变异效应预测。
3. 实验分析
为了验证GPN的性能,作者在拟南芥(Arabidopsis thaliana)基因组上进行了广泛的实验。拟南芥是一种模式植物,其基因组已被广泛研究,且有大量的功能基因组数据可供比较。
无监督聚类分析
作者使用UMAP对GPN模型嵌入进行了可视化,并通过Leiden聚类算法识别出基因组中的不同区域。结果显示,GPN能够无监督地区分基因间区、内含子、外显子、非翻译区(UTR)等基因组区域。例如,最大的五个聚类分别以基因间区、外显子、内含子、3’ UTR和5’ UTR为主。此外,某些聚类与特定功能基因相关联,如富含蛋白激酶活性基因的聚类5。
DNA基序预测
通过分析模型对特定区域的核苷酸概率分布,作者发现GPN能够准确预测已知的DNA基序。例如,模型能够清晰地识别出起始密码子(ATG)及其上游区域的偏好核苷酸。此外,GPN还能够预测剪接供体(splice donor)和剪接受体(splice acceptor)的二核苷酸基序,以及转录因子结合位点(如AT1G72740的九核苷酸结合位点)。
零样本变异效应预测
GPN通过计算变异位点的对数似然比(GPN分数)来预测非编码变异的致病性。作者分析了所有可能的单核苷酸多态性(SNP)的GPN分数分布,并发现GPN能够正确区分不同类型的变异(如错义变异、同义变异等)的致病性。此外,GPN分数与自然群体中的等位基因频率呈单调关系,即GPN分数越低的变异在群体中的频率越低。这表明GPN能够有效预测变异的致病性。
与其他模型的比较
作者将GPN与其他非编码变异效应预测模型进行了比较。结果显示,GPN在大多数变异类型上均优于或至少与现有模型相当。例如,GPN在预测错义变异和同义变异的致病性方面优于DeepSEA、phyloP和PhastCons。此外,GPN还优于基于人类基因组训练的DNA语言模型DNABERT。值得注意的是,GPN在预测基因上游变异方面与经过功能基因组数据微调的GPN-Epigenetics相当,这表明GPN在某些情况下能够与功能基因组数据相结合,进一步提高预测性能。