结合卷积和自注意力机制改进人类基因组语言模型.
0. TL; DR
本文介绍了一个名为LOGO(Language of Genome)的自注意力语言模型,用于解读人类基因组中的非编码区域。LOGO通过预训练学习了人类基因组的双向表示,并在多个下游任务中表现出色,包括启动子预测、增强子-启动子相互作用预测和染色质特征预测。此外,LOGO在非编码变异的功能预测方面也表现出色,能够为复杂疾病相关变异提供机制见解。LOGO的轻量化架构和高效的预训练策略使其成为一个可扩展且稳健的框架。
1. 背景介绍
人类基因组中超过98%的区域是非编码区域,这些区域在调控基因表达和疾病发生中起着重要作用。然而,解读这些非编码区域的功能仍然是一个巨大的挑战。近年来,深度学习方法在计算机视觉和自然语言处理领域取得了巨大成功,这些方法也被引入到基因组学中,用于预测基因组序列的功能特征。例如,DeepSEA是一个基于深度卷积神经网络的模型,能够预测基因组序列的染色质特征。然而,这些模型通常需要大量的标注数据进行训练,并且在处理长序列时存在局限性。
为了克服这些限制,研究者们提出了基于Transformer架构的语言模型,如BERT,用于自然语言处理任务。这些模型通过自监督学习,能够学习文本的双向表示,并在多种下游任务中表现出色。受此启发,本文提出了LOGO,一个基于Transformer的自注意力语言模型,用于解读人类基因组的非编码区域。LOGO通过预训练学习了基因组序列的双向表示,并在多个下游任务中进行了微调,表现出色。
2. LOGO 模型
LOGO的核心是一个轻量化的ALBERT架构,包含两个自注意力层,隐藏层大小为256,注意力头数为8。LOGO的输入是基因组序列的k-mer表示,其中k表示连续的核苷酸数量。例如,当k=3时,每个三核苷酸被编码为一个唯一的token。LOGO的预训练任务是预测随机掩盖的token,类似于BERT中的Masked Language Model(MLM)任务。
自注意力机制允许模型在单个序列的不同位置之间建立关系,从而学习上下文相关的表示。对于每个自注意力层,输入包括查询(Q)、键(K)和值(V)。注意力函数可以描述为:
\[\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V\]其中,$d_k$是键向量的维度。为了增加模型的容量,输入的每个隐藏层都会经过多个注意力头的处理,然后将每个头的输出连接起来并投影到最终的值上。
LOGO的预训练任务是预测随机掩盖的token。在预训练阶段,模型会随机掩盖输入序列中的15%的token,并用[MASK]标记替换。模型的目标是预测这些被掩盖的token。预训练的损失函数是掩盖token的交叉熵损失的平均值。
在预训练完成后,LOGO可以通过微调应用于特定的下游任务。例如,在启动子预测任务中,模型的输入是基因组序列的k-mer表示,输出是序列是否为启动子的预测。在增强子-启动子相互作用预测任务中,模型的输入是增强子和启动子序列的配对,输出是它们之间是否存在相互作用的预测。
LOGO还可以扩展到非编码变异的功能预测任务。通过引入一维卷积层,LOGO能够捕捉变异位点的局部信息,从而更准确地预测变异的功能影响。此外,LOGO还可以通过引入先验知识来进一步提高性能。例如,在启动子预测任务中,可以将基因组的注释信息作为先验知识输入到模型中。
3. 实验分析
启动子预测
LOGO在启动子预测任务中表现出色,与现有的深度学习模型DeeReCT-PromID相比,LOGO在所有设置下都取得了更高的精确度、召回率和F1分数。特别是,使用5-mer设置的LOGO(LOGO-5-mer)在包含TATA盒和不包含TATA盒的启动子预测中,平均F1分数分别提高了15.0%和10.0%。
增强子-启动子相互作用预测
LOGO在增强子-启动子相互作用预测任务中也表现出色。与DeepTACT模型相比,LOGO在六个不同细胞类型的数据集上取得了更高的平均精确率-召回率曲线下面积(AUPRC)。例如,在总CD4+ T细胞(tCD4)数据集上,LOGO的AUPRC比DeepTACT提高了4.47%。
染色质特征预测
LOGO在染色质特征预测任务中也表现出色。与DeepSEA模型相比,LOGO在预测919个染色质特征时,中位数接收者操作特征曲线下面积(AUROC)分别提高了0.70%、0.70%和0.80%。此外,LOGO在预测2002个染色质特征时,与ExPecto模型相比,也取得了相当的性能。值得注意的是,LOGO的参数数量远少于DeepSEA和ExPecto,分别只有1.52M和1.87M,而DeepSEA和ExPecto的参数数量分别为52.8M和150M。
非编码变异的功能预测
LOGO在非编码变异的功能预测任务中也表现出色。在人类遗传病相关变异的优先级排序任务中,LOGO在两种不同的负样本选择方案下都取得了较高的性能。特别是,在限制性负样本选择方案下,LOGO的AUC达到了0.722,超过了所有其他方法。在复杂疾病相关变异的优先级排序任务中,LOGO也取得了较好的性能,AUC达到了0.841。