用于解码和生成噬菌体基因组的长上下文语言模型.
0. TL; DR
本文介绍了一种名为megaDNA的长上下文语言模型,专门用于解码和生成噬菌体基因组。该模型通过自监督学习方式在未注释的完整噬菌体基因组上进行训练,能够零样本预测基因组中的必需基因,并生成具有功能基因组结构的序列。这些生成的序列在5’非翻译区(5’UTR)中包含启动子和核糖体结合位点(RBS),并且其蛋白质结构预测显示出较高的置信度。该模型为噬菌体基因组的从头设计提供了新的可能性,有望推动医学、农业和环境科学等领域的发展。
1. 背景介绍
随着人工智能技术在自然语言处理(NLP)领域的快速发展,基于大规模预训练语言模型的方法取得了显著的进展。这些模型通过学习自然语言的模式和结构,能够执行各种复杂的任务,如文本生成、翻译和情感分析。受此启发,研究人员开始探索将类似的技术应用于基因组学,开发出基因组语言模型,旨在通过学习基因组序列的模式来预测调控元件、揭示蛋白质的共调控模式以及识别基因组范围内的变异效应。
然而,现有的基因组语言模型在处理长序列和生成新内容方面存在局限性。例如,基于BERT的模型通常只能处理较短的上下文,并且在生成新序列时表现不佳。此外,这些模型在处理基因组尺度数据时,由于上下文大小和技术限制(如k-mer分词的聚合),难以达到所需的分辨率来设计功能性元件。
为了解决这些问题,本文提出了megaDNA,这是一种长上下文语言模型,能够理解和生成基因组序列。该模型借鉴了GPT模型的生成能力,并采用了多尺度Transformer结构,允许在单核苷酸水平上对未注释的完整噬菌体基因组进行自监督训练。通过这种方式,megaDNA能够在无需进一步微调的情况下,零样本预测噬菌体基因组中的必需基因,并生成具有类似自然噬菌体基因组结构的序列。
2. megaDNA 模型
megaDNA模型采用了多尺度Transformer结构,包含三个Transformer解码器层,每层深度为 8,维度依次递增(局部:196,中间:256,全局:512)。三层的上下文长度分别为16、64 和 128。这种架构允许模型在不同分辨率下捕捉序列信息:
- 局部层:处理16 bp窗口内的token化序列嵌入。
- 中间层:处理1024 bp的上下文窗口。
- 全局层:利用中间层的信息来建模整个输入上下文(96 K bp)的序列依赖关系。
这种结构使得megaDNA模型能够在单核苷酸水平上处理完整的噬菌体基因组,而不会受到传统Transformer的上下文大小限制。
megaDNA模型使用自监督学习方式进行训练,即在未注释的完整噬菌体基因组上进行训练,而无需任何监督信号。模型通过预测下一个核苷酸来学习基因组序列的模式。交叉熵损失函数用于衡量模型预测的核苷酸与实际核苷酸之间的差异:
\[\text{Loss} = -\frac{1}{N} \sum_{i=1}^{N} \sum_{j=1}^{M} y_{ij} \log(p_{ij})\]其中,$N$ 是序列的长度,$M$ 是核苷酸的种类数(4种),$y_{ij}$ 是实际核苷酸的one-hot编码,$p_{ij}$ 是模型预测的核苷酸的概率。
尽管megaDNA模型在自监督学习阶段不需要任何监督信号,但在特定任务上进行微调时,可以进一步提升模型的性能。例如,在预测蛋白质功能变异效应的任务中,模型的嵌入向量被用于训练线性回归模型,以预测变异对蛋白质功能的影响。
3. 实验分析
研究者们从三个来源收集了高置信度的噬菌体基因组数据,包括NCBI GenBank、元基因组肠道病毒(MGV)目录和肠道噬菌体数据库(GPD)。经过数据清洗后,构建了一个包含99.7万个噬菌体基因组的训练数据集。每个核苷酸都被视为一个单独的token进行处理。
零样本预测基因组必需基因
为了验证模型在零样本情况下预测基因组必需基因的能力,研究者们对λ噬菌体基因组进行了体外突变分析。通过在基因组中随机突变每个核苷酸,并计算模型损失,发现必需基因的编码序列突变会导致更高的模型损失。具体来说:
- 必需基因的编码序列突变导致的模型损失显著高于非必需基因(AUROC: 0.86)。
- 必需基因的起始和终止密码子突变也导致更高的模型损失。
这些结果表明,模型损失可以作为零样本预测基因组必需基因的指标。
预测蛋白质功能变异效应
研究者们进一步评估了模型在预测蛋白质功能变异效应方面的表现。使用E. coli中infA基因的深度突变扫描(DMS)数据集,模型的嵌入向量被用于训练线性回归模型,以预测变异对蛋白质功能的影响。结果表明:
- 模型的预测性能与现有的DeepSequence模型相当,标准差为0.16。
- 模型还能够预测T7噬菌体基因组中的单核苷酸多态性(SNPs)的影响,Spearman相关系数为0.71。
预测调控元件活性
研究者们还评估了模型在预测细菌基因组中调控元件活性方面的表现。使用5’UTR序列作为输入,模型的嵌入向量被用于预测其翻译效率。结果表明:
- 模型能够有效预测不同细菌基因组中5’UTR的翻译效率,Spearman相关系数范围为0.62到0.82。
- 模型的性能在不同训练样本大小下表现出鲁棒性。
分类未注释序列的分类
最后,研究者们将模型应用于分类未注释序列的分类任务。使用来自细菌、古菌和噬菌体基因组的未注释序列,模型的嵌入向量被用于训练逻辑回归模型,以预测序列的分类。结果表明:
- 模型在分类任务中表现出高准确性,平均AUROC为0.98。
- 模型的性能在不同层的嵌入向量中表现出一致性。
生成新的基因组序列
megaDNA模型还能够生成新的噬菌体基因组序列。生成的序列长度超过1 K bp,平均长度为43 K bp,与训练数据集相似。生成的序列中包含预测的基因,其基因长度分布与训练数据集相似。此外,生成的序列中还包含启动子和RBS等调控元件,这些元件在5’UTR中表现出较高的活性。