Bio-xLSTM: 生物和化学序列的生成式建模、表示与上下文学习.

0. TL; DR

本文提出了 Bio-xLSTM,这是一个基于 xLSTM 架构的模型套件,专门用于生物和化学序列的建模。Bio-xLSTMDNA、蛋白质和化学序列的生成建模、表示学习以及上下文学习方面表现出色,能够处理长序列并捕捉长程依赖关系,为药物发现、蛋白质工程和精准医学等领域提供了强大的工具。

1. 背景介绍

生物序列(如 DNARNA 和蛋白质)以及化学序列(如小分子的 SMILES 表示)是分子生物学、基因组学和药物发现的核心。准确的计算模型能够将这些序列数据转化为可操作的见解,例如预测基因变异的表型、设计新型蛋白质以及发现潜在的药物分子。近年来,随着大规模数据收集项目的推进(如人类基因组计划和蛋白质结构数据库 UniProt),如何从这些数据中提取有用信息成为关键问题。

目前,生物和化学序列的语言模型大多基于 Transformer 架构。尽管 Transformer 在自然语言处理中取得了巨大成功,但其自注意力机制的时间复杂度为序列长度的二次方,这使得其在处理长序列(如人类基因组)时面临计算瓶颈。此外,生物和化学序列通常需要长程上下文信息来准确建模,例如蛋白质的三维折叠和基因调控。因此,开发能够高效处理长序列的模型是当前研究的热点。

xLSTM 是一种新型的循环神经网络架构,具有线性的时间复杂度和常数级的内存需求,能够有效处理长序列。它通过引入增强的记忆结构和指数门控机制,在自然语言处理任务中表现优异。本文将 xLSTM 架构扩展到生物和化学领域,提出了 Bio-xLSTM 模型套件,包括针对 DNA、蛋白质和化学序列的特定变体。

2. Bio-xLSTM 模型

xLSTM 架构由 sLSTMmLSTM 两种类型的层组成,它们被集成到更大的残差网络中。sLSTMmLSTM 都是循环神经网络,通过输入、输出和遗忘门控制信息流动,并利用细胞状态和归一化状态来维护长期记忆。

sLSTM 的前向传播公式如下:

mLSTM 的前向传播公式如下:

Bio-xLSTM 包括针对不同生物和化学序列的特定变体:

Bio-xLSTM 支持多种建模方法,包括因果语言建模(CLM)、掩码语言建模(MLM)和上下文学习(ICL)。这些方法能够捕捉序列的长程依赖关系,并利用上下文信息进行生成和预测。

3. 实验分析

3.1 DNA 序列实验

DNA-xLSTM 在人类基因组(GRCh38)上进行了预训练,使用因果语言建模(CLM)和掩码语言建模(MLM)任务。实验结果表明,DNA-xLSTM 在两种任务中均优于 基线模型,表明其在重建 DNA 序列方面表现优异。

在基因组分类任务中,DNA-xLSTM 在 18 个数据集中的 12 个上表现最佳,甚至在某些任务上超过了拥有 500M 参数的 Nucleotide Transformer 模型。这表明 DNA-xLSTM 能够学习到丰富的 DNA 序列表示。

3.2 蛋白质序列实验

Prot-xLSTMOpenProteinSet 数据集上进行了同源性感知训练,使用填充中间(FIM)策略。实验结果表明,Prot-xLSTM 在生成蛋白质序列和预测突变体适应性方面优于 ProtMambaTransformer 模型。例如,在蛋白质生成任务中,Prot-xLSTM-102M 的困惑度最低,表明其生成的蛋白质序列与真实序列最为接近。

3.3 化学序列实验

Chem-xLSTMChEMBL 数据集上进行了无条件分子生成任务。实验结果表明,Chem-xLSTM 在生成小分子的 Fréchet ChemNet Distance(FCD)指标上表现最佳,生成的分子与目标分布最为接近。

Chem-xLSTM 在分子域条件生成任务中表现出色,能够根据提供的上下文生成特定领域的分子。例如,在条件生成任务中,Chem-xLSTM-15M-icl 的困惑度最低,表明其能够生成与目标分子域最为接近的分子。