SIMBA: 单细胞特征级别的嵌入.
0. TL; DR
SIMBA (Single-cell Indexing Method with Bipartite Affinity) 是一种基于图嵌入的单细胞数据分析框架,通过将cells(细胞)与features(特征,如genes、peaks、motifs、k-mers)共同嵌入到共享的潜在空间中,实现了无需聚类的标记发现、跨批次校正和多组学整合。
该方法利用PyTorch-BigGraph进行可扩展的图嵌入,结合Softmax变换和实体类型约束,能够在统一框架下处理scRNA-seq、scATAC-seq及多模态数据,在保持生物学变异的同时消除技术批次效应,并直接推断基因调控关系。
1. 背景介绍
单细胞测序技术(single-cell sequencing)的快速发展使研究者能够在单个细胞分辨率上解析基因组(genomics)、表观基因组(epigenomics)、转录组(transcriptomics)和蛋白质组(proteomics)等多个层面的信息。然而,现有的计算方法大多针对特定任务设计,存在以下局限:
- 聚类中心性(cluster-centric):传统流程(如Seurat或Scanpy)依赖降维、聚类和差异表达分析,聚类结果对分辨率参数敏感,可能导致生物学注释不一致。
- 任务特异性:批次校正(batch correction)、多模态分析(multimodal analysis)和多组学整合(multi-omics integration)通常需要不同的算法框架,缺乏统一解决方案。
- 特征关系建模不足:现有方法主要关注细胞状态学习,难以直接建模基因与调控元件(如enhancers、transcription factor (TF) motifs)之间的层次关系。
为应对这些挑战,作者提出了SIMBA。该方法将单细胞数据表示为异构图(heterogeneous graph),其中细胞和各类特征作为节点(nodes),实验测量或计算推断的关系作为边(edges)。通过多关系图嵌入技术,SIMBA将不同类型的实体映射到共同的低维空间,使得细胞与其定义性特征在嵌入空间中相邻,从而支持基于邻域查询的生物学分析,无需依赖聚类结果。
2. 方法详解

2.1 图构建(Graph Construction)
SIMBA的核心是将单细胞数据转换为多关系图 $G=(V, E)$,其中 $V$ 包含不同类型的实体,$E$ 表示实体间的关系。
根据分析任务,图中的实体可包括:
- Cell(细胞):来自scRNA-seq或scATAC-seq的观测单元
- Gene(基因):scRNA-seq中的表达特征
- Peak(峰):scATAC-seq中的染色质开放区域
- TF motif(转录因子基序):DNA序列中的调控元件
- k-mer:长度为 $k$ 的DNA短序列
边分为两类:
- 实验测量边(measured edges):如细胞-基因表达关系、细胞-peak可及性关系
- 计算推断边(inferred edges):如跨批次细胞相似性、跨模态细胞对应关系、peak-motif序列包含关系
特定任务的图构建策略如下:
- scRNA-seq 分析:作者将归一化的基因表达矩阵离散化为 $n$ 个等级(默认 $n=5$)。通过一维k-means聚类确定分箱阈值,将连续表达值转换为离散等级 $1,\ldots,n$。图中包含细胞节点和基因节点,边权重反映表达等级(从 $1.0$ 到 $5.0$)。对于零值,不建立边或赋予最低权重。
- scATAC-seq 分析:将peak-细胞矩阵二值化:若某peak在细胞中有至少一条read,则建立边(权重为 $1.0$)。若包含DNA序列信息,则扩展图结构:添加 motif 节点和 k-mer 节点;若peak序列包含某motif或k-mer,则建立peak-motif边(权重 $0.2$)或peak-k-mer边(权重 $0.02$)
- 批次校正(Batch Correction):对每个批次独立构建scRNA-seq图。通过截断随机SVD(truncated randomized SVD)推断跨批次细胞相似性:给定两个批次的表达矩阵 $\boldsymbol{X}_1 \in \mathbb{R}^{n_1 \times m}$ 和 $\boldsymbol{X}_2 \in \mathbb{R}^{n_2 \times m}$,计算相似性矩阵 $\boldsymbol{X} = \boldsymbol{X}_1 \boldsymbol{X}_2^T$。对 $\boldsymbol{X}$ 进行SVD分解 $\boldsymbol{X} \approx \boldsymbol{U}\boldsymbol{\Sigma}\boldsymbol{V}^T$,在L2归一化后的 $\boldsymbol{U}$ 和 $\boldsymbol{V}$ 中寻找相互最近邻(mutual nearest neighbors, MNN),建立跨批次细胞边。
- 多组学整合(Multi-omics Integration):分别构建scRNA-seq和scATAC-seq子图。通过基因活性分数(gene activity scores)推断跨模态边:对于每个基因,考虑其转录起始位点(TSS)上下游 $100\text{kb}$ 内的peaks,根据距离TSS的指数衰减函数加权计算基因分数,进而使用上述MNN策略连接RNA细胞和ATAC细胞。

2.2 图嵌入(Graph Embedding)
作者采用PyTorch-BigGraph框架学习每个实体 $v \in V$ 的 $D$ 维嵌入向量 $\theta_v \in \mathbb{R}^D$(默认 $D=50$),通过优化链接预测目标函数进行训练。
对于边 $e=(u,v)$,定义分数 $s_e = \theta_u \cdot \theta_v$。优化多类log loss:
\[\mathcal{L}_e = -\log \frac{\exp(s_e)}{\sum_{e' \in \mathcal{N}} \exp(s_{e'})} w_{e'}\]其中 $\mathcal{N}$ 为负采样(negative sampling)生成的候选边集合,$w_{e’}$ 为边权重。
由于图中只有特定实体类型间允许存在边(如细胞-基因、peak-motif),负采样时仅替换为同类型的随机实体,避免生成无效边(如基因-基因边),确保嵌入空间反映真实的生物学关系。
为处理节点度分布不均的问题,一半的负样本从同类型节点均匀采样,另一半按节点度的概率分布采样,防止嵌入过度拟合高度节点。
为防止过拟合(尤其在边-参数比率较低时),作者引入L2正则化:
\[\mathcal{L}_{\text{reg}} = \mathcal{L} + \lambda \sum_{u \in N} \sum_{d=1}^D \theta_{u,d}^2\]其中权重衰减参数 $\lambda$ 根据训练样本量 $N_e$ 自动计算。训练过程中保留 $5\%$ 的边作为验证集,监控MRR(mean reciprocal rank)、R1、R10等指标判断收敛。
2.3 Softmax 变换与度量标准
由于不同实体类型(如细胞与peaks)具有不同的边分布,直接比较嵌入可能产生偏差。作者采用Softmax变换使特征嵌入与细胞嵌入可比:
给定细胞嵌入 ${v_{c_i}}$ 和特征嵌入 $v_{f_j}$,计算边概率:
\[p_{c_i,f_j} = \frac{\exp(v_{c_i} \cdot v_{f_j})}{\sum_{k=1}^n \exp(v_{c_k} \cdot v_{f_j})}\]变换后的特征嵌入为细胞嵌入的加权平均:
\[\hat{v}_{f_j} = \frac{\sum_{i=1}^n p_{c_i,f_j}^{T^{-1}} v_{c_i}}{\sum_{i=1}^n p_{c_i,f_j}^{T^{-1}}}\]其中 $T=0.5$ 为温度参数,控制分布锐度。
基于概率分布 $p_{c_i,f_j}$,作者提出四个评估特征特异性的指标:
- Max value:前 $k$ 个(默认 $50$)最高概率细胞的平均归一化相似度
- Gini index:衡量概率分布偏离均匀分布的程度,$G = \frac{\sum_{i=1}^n (2i-n-1)p_{c_i,f_j}}{n\sum_{i=1}^n p_{c_i,f_j}}$
- s.d.(标准差):概率分布的离散程度
- Entropy(熵):$H = -\sum p \log p$,低熵表示高特异性
通过计算null节点(保持度分布的随机重排边)的度量分布,可计算统计显著性(p-value)和假发现率(FDR)。
2.4 下游分析功能
主调控因子识别(Master Regulator Identification): 对于转录因子,若其motif和基因在嵌入空间中距离近且均具有高细胞类型特异性(高Gini index和Max value),则判定为主调控因子。通过计算TF motif到所有基因的距离排名,结合特异性过滤,识别细胞命运决定的关键调控因子。
靶基因推断(Target Gene Inference): 给定主调控因子,搜索其motif和基因的近邻基因(默认 $k=200$)。候选靶基因需满足:
- 其基因组位点附近的peaks包含该TF motif
- 在嵌入空间中,该基因及邻近peaks均靠近TF motif和TF基因
- 通过计算四种距离(基因-TF基因、基因-TF motif、peaks-TF motif、peaks-基因)的排名,筛选出符合调控逻辑的靶基因。
3. 实验分析
作者利用多个公开数据集验证SIMBA的性能,涵盖scRNA-seq、scATAC-seq、多模态(SHARE-seq、SNARE-seq、10x Multiome)、批次校正和多组学整合任务。
3.1 scRNA-seq 分析
作者在数据集 10x Genomics PBMCs(人外周血单核细胞)上评估了模型的性能。
- Figure b:SIMBA细胞嵌入的UMAP可视化。细胞按注释类型着色,清晰分离出 $8$ 种细胞类型:B cells、megakaryocytes、CD14 monocytes、FCGR3A monocytes、dendritic cells、NK cells、CD4 T cells和CD8 T cells。
- Figure c:细胞与可变基因(variable genes)的联合嵌入。已知标记基因(如IL7R在CD4 T cells、MS4A1在B cells、PPBP在megakaryocytes)均嵌入到对应细胞类型附近;而管家基因(housekeeping genes)如GAPDH和B2M位于所有细胞群中间,表明SIMBA能有效区分细胞类型特异性特征与非特异性特征。
- Figure d:SIMBA Barcode Plots展示基因-细胞关联的概率分布。对于标记基因(CST3、MS4A1、NKG7),概率质量集中在特定细胞类型(高排名细胞),呈现偏斜分布;而GAPDH的概率分布均匀,表明其非特异性表达。
- Figure e:基于Gini index和Max value的基因度量图。标记基因(红色标注)位于右上角(高Gini、高Max),管家基因(GAPDH、B2M)位于左下角,提供无需聚类的标记基因筛选标准。
- Figure f:基因表达水平的UMAP可视化验证。从左至右依次为CST3(单核细胞和树突状细胞)、NKG7(NK和CD8 T cells)、MS4A1(B cells)、GAPDH(广泛表达),与嵌入位置完全一致。

3.2 scATAC-seq 分析
作者在一个人造血细胞数据集(含FACS分选标签)上评估模型的性能。
- Figure a:scATAC-seq图构建流程。细胞-peak矩阵经二值化后构建基础图;若包含序列信息,则扩展为包含TF motifs和k-mers的多关系图,无需TF-IDF归一化。
- Figure b:仅细胞嵌入的UMAP图。SIMBA准确分离了造血分化轨迹,包括HSC(造血干细胞)、MPP(多能祖细胞)、LMPP(淋巴多能祖细胞)、CMP(共同髓系祖细胞)、GMP(粒细胞-巨噬细胞祖细胞)、MEP(巨核细胞-红细胞祖细胞)、CLP(共同淋巴祖细胞)、pDC(浆细胞样树突状细胞)、Mono(单核细胞)等。
- Figure c:细胞与多类型特征(motifs、k-mers、peaks)的联合嵌入。已知造血主调控因子的motif(如GATA1、GATA3靠近MEP;PAX5、EBF1靠近CLP;CEBPB、CEBPD靠近Mono)均嵌入到对应细胞类型附近。此外,k-mer序列(如GATAAG)与对应TF motif(GATA1)及目标细胞类型共定位,实现de novo基序发现。
- Figure d:特征特异性度量图。针对motifs、k-mers和peaks分别计算Gini index与Max value,高特异性特征(标注名称)位于右上区域。
- Figure e:基因组浏览器视图(Genome Browser Tracks)。展示KLF1基因座位的两个标记peaks(P1: chr19:12997999-12998154 和 P2: chr19:12998329-12998592)。P1包含k-mer GATAAG(匹配GATA1结合基序),且GATA1已知调控KLF1,验证SIMBA识别的调控元件具有生物学意义。
- Figure f:TF活性分数可视化。在MEP细胞中,GATA1 motif和k-mer GATAAG均显示高z-score活性,与嵌入位置一致。
- Figure g:Barcode Plots验证GATA1 motif、GATAAG k-mer及peaks P1/P2在MEP细胞中的特异性分布。

3.3 单细胞多模态分析
作者在SHARE-seq小鼠皮肤毛囊分化数据(同时测定RNA和ATAC)上评估模型的性能。
- Figure a:多模态图构建示意。整合基因表达、染色质可及性、TF motif和k-mer信息,构建五类实体(细胞、基因、peaks、motifs、k-mers)的异构图。
- Figure b:多类型特征特异性度量。基因(如Lef1、Hoxc13)、TF motifs(如Hoxc13 motif)和peaks(如靠近Hoxc13的peak)的Gini-Max图均显示毛囊相关特征具有高特异性。
- Figure c:多层级嵌入可视化。左图:仅细胞嵌入显示TAC( transit-amplifying cells)向IRS(内根鞘)、Medulla(髓质)和Cuticle/Cortex(角质层/皮质)的分化轨迹;中图:细胞与顶级基因嵌入显示Krt71(IRS)、Krt31(皮质)、Foxq1(髓质)的特异性定位;右图:加入TF motifs和peaks后,Lef1和Hoxc13及其邻近peaks沿分化轨迹分布,且Hoxc13基因早于其motif出现,符合先锋因子(pioneer factor)结合不可及染色质的生物学观察。
- Figure d:主调控因子排序。SIMBA识别出已知毛囊发育调控因子(Lef1、Gata6、Nfatc1、Hoxc13、Foxe1)及新发现的Relb,后者在TAC-2细胞中定义了一个新的亚群。
- Figure e:靶基因推断策略示意图。在嵌入空间中,靶基因需同时接近TF基因和TF motif,且其邻近peaks也需接近这两者。
- Figure f:Lef1和Hoxc13的靶基因网络。SIMBA成功恢复了文献报道的靶基因(如Lef1调控Jag1、Hoxc13、Gtf2ird1;Hoxc13调控Cybrd1、St14),证明了共同嵌入空间在基因调控网络推断中的价值。

3.4 批次校正分析
作者在人胰腺数据集($5$ 个批次,Baron、Muraro、Segerstolpe、Wang、Xin)和小鼠图谱数据集($9$ 个器官系统)上评估模型的性能。
- Figure a:批次校正图构建示意。通过共享基因节点连接不同批次,并通过SVD推断的跨批次细胞边(虚线)增强整合。
- Figure b:人胰腺数据校正效果。上排:原始数据UMAP显示明显批次效应(左图,按批次着色)和混合不充分的细胞类型(右图,按细胞类型着色);下排:SIMBA校正后,不同批次细胞在UMAP中均匀混合(左图),同时细胞类型(Alpha、Beta、Delta、Ductal等)保持清晰分离(右图),表明技术变异被有效去除而生物学信号得以保留。
- Figure c:批次校正后的细胞与基因联合嵌入。SIMBA在去除批次效应的同时,将已知标记基因(如KIF12对应Alpha细胞、KRT19对应Ductal细胞)正确定位到相应细胞类型附近,实现无需聚类的跨批次标记基因识别。

3.5 多组学整合分析
作者在10x Genomics Multiome人PBMCs数据(手动拆分为scRNA-seq和scATAC-seq以评估整合准确性)上评估模型的性能。
- Figure a:多组学整合图构建。scRNA-seq和scATAC-seq分别建图后,通过基因活性分数计算跨模态细胞相似性,建立RNA细胞与ATAC细胞间的推断边。
- Figure b:整合效果可视化。左图:整合前RNA和ATAC细胞在UMAP中完全分离(按模态着色);右图:SIMBA整合后,同种细胞类型的RNA和ATAC细胞均匀混合(按模态着色),同时不同细胞类型保持分离(按聚类着色),证明成功对齐了不同模态的数据。
- Figure c:整合后的细胞、基因和peaks联合嵌入。SIMBA不仅混合了模态,还同时识别出细胞类型特异的标记基因(如NEFL、SYT16、FCAR)和peaks(如靠近这些基因的染色质开放区域),为跨模态调控分析提供了统一的坐标系统。
