使用 Evo 进行从分子到基因组规模的序列建模和设计.
0. TL; DR
本文介绍了 Evo,一个基于 StripedHyena 架构的基因组基础模型,能够处理长达 131 千碱基对(kb)的 DNA 序列,并在单核苷酸分辨率下进行预测和生成任务。Evo 在多个任务上表现出色,包括零样本预测蛋白质功能、非编码 RNA 功能以及基因表达调控,并能够生成复杂的 CRISPR-Cas 分子复合体和完整的转座系统。此外,Evo 还能够预测基因必需性,并生成长达 650 kb 的编码丰富的基因组序列。Evo 的多模态和多尺度学习能力为理解生物学复杂性提供了新的途径。
1. 背景介绍
DNA 序列是生物信息的基础,负责将进化信息传递给后代。随着 DNA 测序技术的快速发展,我们能够系统地绘制出基因组的进化多样性。然而,目前的机器学习方法大多专注于特定的生物分子(如蛋白质、调控 DNA 或 RNA),缺乏对整个基因组的全面建模能力。此外,现有的 DNA 语言模型通常依赖于密集的 Transformer 架构,计算成本高,且在单核苷酸分辨率下表现不佳。
Evo 的目标是通过大规模的基因组数据训练一个能够理解整个基因组内在逻辑的基础模型。该模型基于深度信号处理技术,能够处理长序列并保持单核苷酸分辨率。Evo 的训练数据包括来自细菌和古菌的 3000 亿个核苷酸标记,覆盖了广泛的进化多样性。通过这种大规模的预训练,Evo 学习到了基因组序列中的复杂模式,并能够应用于多种生物信息学任务。
2. 方法介绍
Evo 基于 StripedHyena 架构,结合了注意力机制和数据驱动的卷积操作,以高效处理长序列。该架构包含 29 层数据驱动的卷积层(Hyena 层)和 3 层多头注意力层(配备旋转位置嵌入,RoPE)。Hyena 层通过短卷积和长卷积的组合来处理序列,能够有效过滤噪声模式并聚合核苷酸为基序。注意力层则补充了从输入上下文中回忆信息的能力。
Hyena 层的前向传播:
- 将输入序列 $x$ 分解为三个部分:$x_1, x_2, x_3$。
- 使用短卷积和线性投影将 $x_1$ 和 $x_2$ 转换为门控信号。
- 使用隐式参数化的长卷积处理 $x_3$。
- 将门控信号与长卷积的输出相乘,得到最终输出。
注意力层使用旋转位置嵌入(RoPE)来处理位置信息,通过 softmax 函数计算权重矩阵 $A$:
\[A(x_1, x_2) = \text{softmax}(x_1 x_2^\top)\]其中 $x_1$ 和 $x_2$ 是输入序列的查询和键向量。
Evo 的预训练分为两个阶段:
- 第一阶段:在 8k 核苷酸长度的上下文中进行预训练。
- 第二阶段:将上下文长度扩展到 131k 核苷酸,进一步优化模型对长序列的理解能力。
预训练的目标是通过下一个标记预测任务学习基因组数据的分布。模型需要根据给定的序列预测下一个标记,从而学习到基因组序列中的复杂模式。
3. 实验分析
Evo 能够在多种生物信息学任务中进行零样本预测和生成任务,包括:
- 蛋白质功能预测:通过深度突变扫描(DMS)数据集评估 Evo 对蛋白质功能的影响。
- 非编码 RNA 功能预测:使用 DMS 数据集评估 Evo 对非编码 RNA 功能的影响。
- 基因表达调控预测:通过分析启动子-核糖体结合位点(RBS)对的基因表达调控能力。
- CRISPR-Cas 系统生成:通过微调 Evo 生成 CRISPR-Cas 分子复合体。
- 转座系统生成:通过微调 Evo 生成完整的转座系统。
- 基因组规模的序列生成:生成长达 650 kb 的基因组序列,并评估其编码结构的合理性。
3.1 零样本预测蛋白质功能
Evo 在零样本预测蛋白质功能方面表现出色,与专门的蛋白质语言模型(如 ESM-2 和 ProGen2)竞争,甚至在某些任务上超越了它们。在 E. coli 蛋白质的 DMS 数据集上,Evo 的 Spearman 相关系数达到 0.74,与蛋白质语言模型相当。
2. 非编码 RNA 功能预测
Evo 在非编码 RNA 功能预测任务上也表现出色,超过了专门的 RNA 语言模型(如 RNA-FM)。在 tRNA 和核糖酶的 DMS 数据集上,Evo 的 Spearman 相关系数分别为 0.64 和 0.78。
3. 基因表达调控预测
Evo 能够从调控 DNA 序列中预测基因表达,其预测的 mRNA 表达与实验数据的相关性达到 0.41,预测蛋白表达的 AUROC 为 0.68。
4. CRISPR-Cas 系统生成
通过微调 Evo,能够生成包含 Cas 蛋白和非编码 RNA 组件的 CRISPR-Cas 分子复合体。生成的 Cas 蛋白与训练数据的平均氨基酸序列一致性低至 40%,显示出 Evo 的生成能力。
5. 转座系统生成
Evo 能够生成包含 TnpA 和 TnpB 蛋白以及 RNA 的转座系统。生成的 TnpA 和 TnpB 蛋白的结构预测与已知结构相似,显示出 Evo 的生成能力。
6. 基因组规模的序列生成
Evo 能够生成长达 650 kb 的基因组序列,这些序列具有合理的编码结构,但缺乏一些关键标记基因(如 tRNA 和 rRNA)。生成的序列编码密度与自然基因组相当,显示出 Evo 在基因组规模生成任务中的潜力。
7. 基因必需性预测
Evo 能够在没有监督的情况下预测基因的必需性。通过在细菌或噬菌体基因组中引入提前终止密码子,Evo 的预测性能在多个基因组中表现出显著的 AUROC 值。