使用 Evo 2 进行所有生命领域的基因建模和设计.

0. TL; DR

Evo 2 是一款基于深度学习的生物基础模型,旨在通过学习海量基因组数据来预测基因变异的影响并生成新的基因组序列。该模型在 9.3 万亿个 DNA 碱基对上进行训练,覆盖了生命的所有领域(包括原核生物、真核生物和病毒)。Evo 2 不仅能够准确预测基因变异对蛋白质功能、RNA 稳定性和生物体健康的影响,还能生成完整的线粒体基因组、最小细菌基因组和酵母染色体等,展现了强大的自然性和连贯性。此外,通过推理时搜索,Evo 2 还能实现对表观基因组结构的可控生成,为合成生物学和基因组设计开辟了新的可能性。

1. 背景介绍

生命从分子到系统再到个体,其功能的实现依赖于基因组的复杂编码。从简单的原核生物到复杂的真核生物,基因组的结构和长度差异巨大。原核生物的基因组相对简单,而真核生物则具有复杂的基因组结构,包括大量的非编码区域、替代剪接模式和多层表观基因组调控。这些特征是多细胞生物、复杂性状和智能行为出现的基础。

随着基因组测序、合成和编辑技术的发展,生物学研究已经积累了海量的数据。然而,要从这些数据中理解基因组的复杂性并设计新的生物系统,需要更深入的分析工具。人工智能,尤其是深度学习技术,提供了一种通过大规模数据和计算能力来发现更高阶模式的方法。Evo 2 正是基于这种理念,通过学习海量的基因组数据来构建一个能够预测和生成生物序列的模型。

2. Evo 2 模型

Evo 2 使用了一种名为 StripedHyena 2 的新型卷积混合架构。这种架构结合了多种不同的操作符,以平衡模型质量与训练和推理效率。模型由多个层次组成,包括短序列显式(SE)、中等正则化(MR)和长序列隐式(LI)的 Hyena 操作符,以及自注意力机制。

作者训练了两个Evo 2版本:

模型版本 参数数量 总层数 隐藏层大小 前馈网络大小 注意力头数
Evo 2 40B 403亿 50 8192 22528 64
Evo 2 7B 65亿 32 4096 11264 32

Evo 2 的训练分为两个阶段:预训练和中训练。预训练阶段使用较短的上下文长度(8192 个标记),专注于基因区域的功能元素;中训练阶段则扩展上下文长度至 100 万个标记,以学习基因组中更广泛的模式。

训练数据来自 OpenGenome2 数据集,包含超过 8.84 万亿个核苷酸,覆盖了细菌、古菌、真核生物和噬菌体的基因组。

Evo 2 使用了加权交叉熵损失函数,对重复序列的损失贡献进行权重调整。这一方法有助于模型更好地处理重复序列,并在下游任务中表现出更好的性能。损失函数的公式如下:

\[\ell_{wCE} = \frac{1}{N} \sum_{i}\alpha_i \ell_{CE}(i)\]

其中,权重 $\alpha_i$ 定义为:

\[\alpha_i = \begin{cases} 0.1 & \text{if position } i \text{ is in a repetitive region} \\ 1.0 & \text{otherwise} \end{cases}\]

为了扩展模型的上下文长度,Evo 2 使用了旋转位置嵌入(RoPE)技术。通过逐步增加上下文长度,模型能够更好地捕捉长距离基因组模式。

3. 实验分析

3.1 基因变异影响预测

Evo 2 能够准确预测基因变异对蛋白质功能、RNA 稳定性和生物体健康的影响。例如,在预测人类基因变异的致病性方面,Evo 2ClinVar 数据集上的表现超过了多个现有的模型,尤其是在非编码变异和剪接变异的预测上。

3.2 基因组生成

Evo 2 能够生成完整的线粒体基因组、最小细菌基因组和酵母染色体。生成的基因组在结构和序列上与自然基因组具有高度相似性。例如,生成的线粒体基因组包含正确的编码序列(CDS)、tRNArRNA 基因数量,并且通过 AlphaFold 3 预测的蛋白质结构与自然线粒体蛋白复合物的结构相匹配。

3.3 表观基因组生成

Evo 2 还能够通过推理时搜索实现对表观基因组结构的可控生成。通过结合 EnformerBorzoi 模型,Evo 2 可以设计具有特定染色质可及性模式的 DNA 序列。例如,Evo 2 成功地将 Morse 码信息编码到表观基因组中,通过设计不同的峰值模式来控制染色质的开放和关闭区域。

3.4 机制可解释性分析

通过稀疏自编码器(SAE),Evo 2 的内部表示可以被分解为可解释的特征。这些特征与多种生物学概念相关,例如外显子、内含子、转录因子结合位点和蛋白质二级结构。这些特征不仅能够用于基因组注释,还能为发现新的生物学系统提供线索。