高级分析
概览
本章节汇总常用的单细胞转录组高级分析方法,旨在帮助研究者提取更丰富的生物学可解读的结论。我们以实用为导向,突出每种方法的定义、适用场景、云平台参数与结果解读要点和应用示例,并提供常见陷阱与优化建议,方便在云平台中进行数据分析。
TIP
如何阅读本节内容
- 本节内容较长,建议使用页面右侧目录快速跳转到感兴趣的主题,按需展开具体内容。
免疫组库分析
免疫组库定义
免疫组库(Immune Repertoire, IR)指在特定时间点,个体适应性免疫系统中所有 T 细胞和 B 细胞受体的集合。其多样性源于淋巴细胞发育过程中的 V(D)J 基因重排。免疫组库分析作为单细胞研究的重要组成部分,通过对 T 细胞受体(TCR)和 B 细胞受体(BCR)进行高通量测序,全面评估免疫系统的状态与动态。通过解析关键的 CDR3 区序列,该分析能够识别并量化海量的 T/B 细胞克隆,从而揭示机体在健康或疾病状态(如感染、肿瘤、自身免疫病等)下的适应性免疫应答特征。
查看更多内容(展开/收起)
免疫组库分析的意义
- 揭示免疫多样性:评估免疫系统的健康状态和对抗原的潜在响应能力。多样性降低可能意味着免疫功能受损或对特定抗原的优势克隆选择。
- 追踪克隆动态变化:通过比较不同时间点、不同组织或不同条件下的样本,可以监测特定 T/B 细胞克隆的扩增、收缩或持久性,理解免疫应答的动态过程。
- 识别疾病相关克隆:在肿瘤免疫治疗、感染性疾病和自身免疫病研究中,鉴定与疾病进展或治疗响应相关的特异性 TCR/BCR 克隆,为开发诊断标志物和靶向治疗提供线索。
- 理解免疫应答机制:结合单细胞转录组数据,可以将克隆型信息与其宿主细胞的基因表达谱关联起来,深入探究不同克隆的功能状态(如效应、记忆、耗竭等)。
- 评估疫苗与免疫治疗效果:通过分析疫苗或治疗前后免疫组库的变化,可以评估免疫干预措施的有效性,并揭示其作用机制。
分析流程与内容解读
拟时序(Pseudotime)分析
拟时序分析定义
拟时序(Pseudotime)分析是一类用于从单细胞转录组数据中推断细胞在某一动态生物学过程(例如发育、分化、疾病进展或对刺激的响应)上相对进程的计算方法。它通过度量细胞间转录组相似性,将离散的细胞样本映射到一个低维空间并按其内在连续性进行排序,从而为每个细胞分配一个表示“进程进展程度”的相对标度(拟时序值)。需要强调的是,拟时序并不等同于真实时间,而是反映细胞状态在假定轨迹上的相对位置。
典型的分析思路包括:选择能够代表过程的排序基因、在低维空间中学习或拟合主图结构(如树状或图模型),并将细胞投影到该主图以计算拟时序值和识别分支点与终末状态。
查看更多内容(展开/收起)
拟时序分析的意义
- 克服细胞异步性:单细胞样本通常由处于不同发育或响应阶段的细胞混合构成,拟时序分析能将这些异步细胞按照内在进程重新排序,揭示连续的生物学变化。
- 重建连续过程:相比于离散聚类,拟时序能展示细胞状态之间的连续转换轨迹,帮助理解从起始状态到终末状态的逐步变化。
- 识别过渡态与稀有细胞:能够检测处于两个稳态之间的中间态细胞或稀有转变细胞,这些细胞往往承载关键的命运决定信息。
- 发现动态调控基因与模块:通过分析基因表达随拟时序的变化,可以鉴定在过程不同阶段上调或下调的关键调控因子及协同变化的基因模块,为后续机制研究提供候选基因集。
- 揭示分支点与命运决策:当轨迹包含分支结构时,拟时序分析可以定位命运分歧点并比较分支间的基因表达差异,从而提出关于细胞命运选择的可验证假设。
- 指导实验设计与多方法互证:拟时序结果可用于指导时序采样、干预实验或谱系追踪等验证性实验;同时可与其他方法(如基于转录多样性的 CytoTRACE 或基于 RNA velocity 的 scVelo)结合,以增强结论的可靠性。
TIP
拟时序分析尤其适用于研究具有连续变化过程的生物学问题,例如:
- 干细胞分化与发育。
- 免疫细胞的激活与耗竭。
- 疾病(如癌症)的发生与演进。
- 细胞对药物或环境刺激的响应过程。
拟时序分析方法有哪些?我应该如何选择
| 工具 | 核心原理 | 优点 | 缺点 | 适用场景与推荐 |
|---|---|---|---|---|
| Monocle 2 | 伪时间 + DDRTree 算法。通过降维和图学习,构建细胞在低维空间的最小生成树,是解析复杂分支的经典方法。 | - 结果稳定经典:构建的分支轨迹清晰,被大量文献验证和接受。 - 生态成熟:有大量教程和文献支持。 | - 计算性能:对超大数据集 (>10 万细胞) 计算较慢,内存消耗大。 - 起点依赖:需要用户指定轨迹起点。 | 首选推荐。当您想清晰地展示细胞如何从一个状态分化到多个不同终点状态时,Monocle 2 是经过验证的、最可靠的选择。 |
| Monocle 3 | 伪时间 + UMAP 嵌入。直接在 UMAP 等降维图上学习图结构来推断轨迹,流程更简化,是更新的分析策略。 | - 速度快,规模大:对超大数据集友好,能处理百万级别细胞。 - 兼容性好:与 Scanpy 等主流生态兼容性好。 | - 仍在发展:算法仍在快速迭代,对于复杂分支的解析能力有时不如 Monocle 2 稳定和清晰。 | 当处理超大规模数据集时,或当轨迹结构相对简单(如线性或单个分支)时,可作为高效的备选方案。 |
| CytoTRACE | 转录多样性。基于核心假设:分化潜能越高的细胞,其活跃表达的基因数量越多;分化程度越高的细胞,基因表达模式越特化。 | - 完全无偏:无需指定起点,能自动预测细胞的分化潜能。 - 善于寻根:在确定轨迹的“根”(最原始细胞群)方面非常强大。 | - 不生成轨迹图:它主要提供一个从高到低的分化潜能排序(一个数值),而不是一个可视化的路径图。 | 当您不确定哪个细胞群是起点,或想客观验证 Monocle 等工具的起点选择是否正确时,强烈推荐使用。 |
| scVelo | RNA 速度。通过定量 pre-mRNA(未剪接)和 mature-mRNA(已剪接)的丰度,推断每个细胞在“未来”几小时内的转录动态方向。 | - 预测“未来”:能揭示细胞状态转变的瞬时方向和速率,提供真实的动态信息。 - 揭示循环过程:对于描绘细胞周期等循环过程非常有效。 | - 数据要求高:需要能有效捕获内含子读段的高质量数据。 - 结果解释复杂:速度矢量图可能较杂乱,需仔细解读。 | 当您想知道细胞状态转变的“方向”和“速度”,而不仅仅是“路径”时,是最佳选择。也适用于探索动态平衡系统。 |
总结与推荐:
- 标准流程:Monocle 2 (描绘路径) + CytoTRACE (确定起点)。
- 探索方向与速率:如果数据质量允许,可使用 scVelo 进行更深入的动态分析。
- 超大数据集:优先考虑 Monocle 3。
细胞通讯(Cell–cell communication)分析
定义与意义
细胞通讯分析用于从单细胞/空间转录组数据中推断细胞群体间通过配体—受体(ligand–receptor, L–R)以及下游信号传导通路发生的信号交换。其目标不仅是识别可能的 L–R 对,还要从通路与系统层面量化群体间“发送/接收”角色与通路强度,为后续实验验证提供候选信号分子与机制假设。
TIP
细胞通讯结果为“预测性”而非“因果性”结论,务必结合表达证据、文献与实验验证(流式、原位或功能性阻断实验)。
查看更多内容(展开/收起)
常用软件与核心差异
| 工具 | 核心原理 | 优点 | 缺点 | 适用场景与推荐 |
|---|---|---|---|---|
| CellChat(R) | 基于 CellChatDB,聚合多亚基与辅因子信息,结合网络分析与通路汇总来量化通信强度与细胞角色 | 丰富的可视化(circle/chord/sankey 等)、通路汇总与发送/接收角色分析;适合系统级比较 | 依赖先验库覆盖;对超大数据集计算资源要求高;对低表达/稀有细胞敏感 | 系统级通路比较、发送/接收角色识别与通路优先级排序的首选工具 |
| CellPhoneDB(Python/CLI) | 使用亚基最小表达原则来表示复合物表达,采用细胞标签置换检验显著性 | 对复合物敏感且统计方法保守严谨;对人类数据有成熟数据库 | 官方以 HUMAN 为主(其他物种需映射);可视化与通路汇总相对有限 | 人类数据的严格 LR 显著性筛查与保守结果验证首选 |
| NicheNet(R) | 整合配体-受体、信号传导与 TF→靶基因网络,使用网络传播评估配体对靶基因的调控潜力 | 能给出配体→靶基因的机制性预测与配体活性评分,适合解释受体细胞差异表达 | 不直接提供群体间发送/接收强度度量,通常需要差异基因作为输入 | 当研究重点是配体是否能解释受体细胞差异基因与下游调控机制时首选 |
备注:工具间的数据库覆盖、复合物注释与统计策略不同,会对检出结果产生显著影响;在报告候选时推荐跨工具交叉验证。
优先推荐与选择建议
- 如果目标是系统级可视化与通路比较(包含发送/接收角色分析):优先使用
CellChat(优秀的可视化与通路汇总能力)。 - 如果使用人类数据且关注配受体对的统计显著性:
CellPhoneDB是稳健选择(强调亚基最小表达策略与置换检验)。 - 如果关注配体能否解释受体细胞差异基因与下游靶基因机制:使用
NicheNet来产生配体→靶基因的候选清单与活性评分。 - 综合策略(推荐):软件分析完成之后,建议使用湿实验或者空间数据验证等手段。
常见误区
WARNING
- 切忌仅依赖单一软件的“强度值”直接下实验结论;不同方法度量不同含义。
- 避免在未统一注释与预处理的情况下直接比较不同组的数值;此类比较极易产生技术偏差。
参考资料
- CellChat 官方仓库:
https://github.com/sqjin/CellChat - CellPhoneDB 官方仓库:
https://github.com/ventolab/CellphoneDB - NicheNet 官方仓库:
https://github.com/saeyslab/nichenetr
拷贝数变异(CNV)分析
拷贝数变异的定义
拷贝数变异(Copy Number Variation, CNV)是基因组结构变异的一种,指的是与参考基因组相比,长度大于 1kb 的 DNA 片段的拷贝数增加或减少。CNV 是物种内和物种间基因组差异的重要来源,与许多疾病的发生发展密切相关,尤其是在肿瘤研究中,CNV 是肿瘤异质性的一个重要特征。
在单细胞转录组测序(scRNA-seq)数据中,可以通过分析基因在基因组上连续区域的表达量变化来间接推断 CNV。如果某个染色体区域的基因表达量整体升高或降低,可能意味着该区域发生了拷贝数的增加或减少。
查看更多内容(展开/收起)
拷贝数变异分析的意义
单细胞 CNV 分析在肿瘤研究中具有极其重要的意义:
- 区分肿瘤细胞与非肿瘤细胞:肿瘤细胞通常伴随着大量的基因组不稳定性,表现为广泛的 CNV。通过分析单个细胞的 CNV 模式,可以有效地区分出恶性肿瘤细胞和混杂在肿瘤组织中的正常细胞(如免疫细胞、基质细胞等)。
- 揭示肿瘤的克隆异质性:肿瘤组织由具有不同基因组特征的亚克隆组成。单细胞 CNV 分析能够识别具有不同 CNV 模式的肿瘤亚克隆,从而揭示肿瘤内部的克隆结构和演化关系。
- 鉴定肿瘤关键驱动基因:通过 CNV 分析,可以定位到频繁发生拷贝数增加或减少的染色体区域,这些区域可能包含关键的癌基因或抑癌基因,为寻找新的治疗靶点提供线索。
- 评估肿瘤演化和耐药机制:通过比较不同治疗阶段或不同转移灶的肿瘤细胞 CNV 模式,可以追踪肿瘤的演化路径,并研究与耐药性产生相关的基因组变异。
InferCNV 和 CopyKAT 的差异与选择建议
InferCNV 和 CopyKAT 是两种广泛应用于利用 scRNA-seq 数据推断 CNV 的生物信息学工具。它们在算法原理、适用场景和结果侧重上有所不同。
| 工具 | 核心原理 | 优点 | 缺点 | 适用场景与推荐 |
|---|---|---|---|---|
| InferCNV | 通过比较肿瘤细胞与一组“正常”参考细胞的基因表达谱,利用滑动窗口平滑基因表达来推断 CNV。 | - 算法经典,结果可靠 - 专注于大规模染色体臂级变异 | - 必须提供高质量的正常参考细胞 - 分辨率相对较低 - 计算量大,耗时较长 - 结果需用户自行解读和划分细胞群 | 适用于有明确、可靠的正常细胞作为参考(如癌旁、免疫细胞),且关注大规模变异的场景。 |
| CopyKAT | 采用整合的贝叶斯方法,通过与基因组位置和表达的混合模型比较来识别 CNV。 | - 无需预定义参考细胞,可自动识别 - 分辨率较高(~5Mb) - 计算效率高,速度快 - 结果自动预测细胞的恶性/正常状态 | - 结果的准确性依赖于数据中存在足量的正常细胞作为内参 - 对于复杂的肿瘤内部异质性,自动亚克隆划分可能过于简化 | 适用于无明确正常对照,或希望自动区分肿瘤/正常细胞的场景。其自动化特性使其成为探索性分析的优选。 |
选择建议:
- 如果您的数据中包含明确、可靠的正常细胞作为参考(例如,来自癌旁组织的非上皮细胞,或明确注释的免疫细胞),并且您更关注大规模的染色体臂水平变异,InferCNV 是一个经典且可靠的选择。
- 如果您的数据中没有明确的正常细胞对照,或者您希望算法能自动区分肿瘤和正常细胞,并且对更高分辨率的 CNV 事件感兴趣,CopyKAT 是更优的选择。其自动化程度更高,结果更易于解读。
- 在实际分析中,可以同时使用两种工具进行分析,相互验证结果,以获得更可靠的结论。
调控网络(Regulatory Network)分析
调控网络分析定义
调控网络分析是一类用于从单细胞转录组数据中推断基因间调控关系和识别功能模块的重要方法。它通过整合基因表达相关性、转录因子结合位点信息以及细胞类型特异性表达模式,构建细胞特异性的基因调控网络,从而揭示驱动细胞状态转变和功能分化的转录调控机制。
典型的分析思路包括:基于基因共表达模式识别协同调控的基因模块(如 hdWGCNA),结合转录因子与靶基因的调控关系推断(如 SCENIC),以及通过功能富集分析揭示模块的生物学意义。
查看更多内容(展开/收起)
调控网络分析的意义
- 揭示转录调控机制:通过构建基因调控网络,可以识别关键的转录因子及其调控的靶基因,揭示细胞状态转变背后的转录调控机制。
- 识别功能基因模块:通过基因共表达网络分析,可以识别在特定细胞类型中协同表达的基因模块,为理解细胞功能提供线索。
- 发现细胞类型特异性调控因子:通过分析调控子在不同细胞类型中的活性差异,可以识别细胞类型特异性的关键调控因子。
- 理解细胞异质性的分子基础:调控网络分析有助于理解细胞异质性背后的基因调控差异,为细胞分类和功能注释提供分子依据。
- 指导靶点筛选与机制研究:通过识别关键调控模块和调控因子,可以为后续的功能验证实验和药物靶点筛选提供候选基因集。
- 整合多组学信息:调控网络分析可以整合基因表达、表观遗传和蛋白质相互作用等多组学信息,提供更全面的调控机制解析。
TIP
调控网络分析特别适用于研究具有复杂调控关系的生物学问题,例如:
- 细胞命运决定的分子机制
- 疾病相关基因的调控网络重构
- 药物作用机制与耐药性研究
- 发育过程中转录调控的动态变化
调控网络分析方法有哪些?我应该如何选择
| 工具 | 核心原理 | 优点 | 缺点 | 适用场景与推荐 |
|---|---|---|---|---|
| hdWGCNA | 基因共表达网络 + 模块识别。基于基因表达相关性构建加权基因共表达网络,通过层次聚类识别功能相关的基因模块。 | - 模块化分析:能识别细胞类型特异性的功能基因模块 - 特征基因提取:通过模块特征基因(Module Eigengenes)量化模块活性 - 功能富集:结合 GO/KEGG 等功能富集分析揭示模块生物学意义 | - 间接调控:主要基于共表达关系,不能直接验证调控关系 - 参数敏感:分析结果受软阈值等参数影响 | 首选推荐。当您想识别细胞类型中协同表达的基因模块并理解其功能时,hdWGCNA 是成熟可靠的选择。 |
| SCENIC | 调控网络推断 + 调控子活性评估。基于基因共表达模式推断转录因子与靶基因的调控关系,结合 motif 分析验证调控关系,并通过 AUCell 算法计算调控子活性。 | - 直接调控:能推断转录因子与靶基因的直接调控关系 - 调控活性量化:通过 AUC 值量化每个细胞中调控子的活性状态 - 细胞状态识别:基于调控网络活性对细胞进行分组和注释 | - 计算复杂:分析流程相对复杂,计算资源要求高 - 数据质量要求高:对输入数据质量要求较高 | 当您想深入了解转录调控机制,识别关键转录因子及其调控的靶基因时,SCENIC 是最佳选择。 |
基因集打分分析
基因集打分分析的定义
基因集打分分析是一种在单细胞转录组数据中,用于评估预定义基因集活性的方法。通过为每个细胞或细胞群的活性进行综合打分,该方法能够量化特定生物学通路、功能或状态的富集程度。这种打分机制为揭示细胞内在异质性,以及深入探索不同细胞状态下的生物学差异提供了有力工具。
查看更多内容(展开/收起)
基因集打分分析的意义
在单细胞研究中,基因集打分分析具有以下重要价值:
- 功能注释:能够对未知的细胞群进行功能注释,揭示其扮演的生物学角色。
- 状态比较:可以比较不同实验条件或细胞类型下,特定生物学通路的活性变化。
- 异质性探索:有助于发现同一细胞群内部的功能异质性,通过活性差异识别不同状态的亚群。
- 生物学洞察:为疾病机制、细胞分化、药物响应等复杂生物学过程提供关键的分子层面的解释。
基因集打分分析方法有哪些?我应该如何选择
| 工具 | 核心原理 | 优点 | 缺点 | 适用场景与推荐 |
|---|---|---|---|---|
| scMetabolism | 基于 VISION 和 AUCell 算法,内置 78 个 KEGG 和 REACTOME 代谢通路。 | 专门针对代谢通路优化,结果直观,易于解读。 | 仅限于预定义的 78 个代谢通路,不适用于其他功能基因集。 | 专注于细胞代谢通路分析。希望快速研究单细胞水平的代谢重编程时,推荐使用此模块。 |
| GSVA | 采用非参数、无监督的方法,将基因表达矩阵转换为基因集富集分数矩阵。 | 适用性广,可用于任何自定义或公共基因集;适合跨样本、跨条件的通路活性比较。 | 结果的生物学意义解释依赖于基因集的质量;对于稀疏的单细胞数据可能不够敏感。 | 通用的基因集变异分析。当需要基于 MSigDB 等大型公共数据库进行全面、无偏的通路分析时,推荐使用此模块。 |
| Scoring | 集成了 AUCell, UCell, singscore, AddModuleScore 等多种常用打分算法。 | 灵活性高,允许用户使用自定义基因集并比较不同算法的结果;有助于交叉验证。 | 需要用户对不同算法的原理和适用性有一定了解,以便选择最合适的方法。 | 灵活的基因集打分工具。当用户有自定义基因集,或希望通过多种不同算法交叉验证结果时,推荐使用此模块。 |
| 特征分析 | AddModuleScore | 使用 Seurat 包的 AddModuleScore 函数,可以计算基因集在每个细胞中的打分 | - 简单易用,结果直观,可以调整画图样式 | - 可能受基因集大小和表达量影响 |
扰动(Perturbation analysis)分析
扰动分析定义
扰动分析(Perturbation analysis)是指在单细胞转录组学中,通过人为定义或观测到的外部/内部条件差异(如疾病状态、药物处理、基因敲除/过表达、时间点等)作为扰动,评估细胞群体或特定细胞类型在这些条件下的转录响应差异与敏感性的一类分析方法。扰动分析的目标是识别在不同条件下最显著响应的细胞类型或基因模块,从而揭示潜在的生物学调控与功能差异。
查看更多内容(展开/收起)
扰动分析的意义
- 识别关键响应细胞类型:通过比较不同条件下的转录谱,找出对扰动最敏感的细胞类型,为后续功能验证提供目标。
- 揭示条件特异性机制:识别在扰动下差异表达或活性改变的基因与通路,帮助理解分子调控机制。
- 优先级排序与资源分配:在复杂的组织或多样的细胞群中,扰动分析可用于优先定位需要深入实验验证的细胞亚群,从而节省实验资源。
- 指导干预策略与生物标志物发现:通过识别对治疗/处理敏感的细胞类型与基因,可为精准治疗与生物标志物开发提供依据。
如何设置扰动因子与扰动对象
扰动因子(Perturbation factor):通常对应于 Seurat/SingleCellExperiment 对象中
metadata的一列,其取值用于定义不同实验条件或分组(例如treatment、disease_status、timepoint等)。设置建议:- 确保该列包含清晰、互斥的分组标签,且至少包含两个不同水平(例如:处理 vs 对照、病人 vs 健康)。
- 标签命名避免中文或特殊字符,推荐使用短英文或下划线连接的名称(如
treated,control,timepoint_0,timepoint_24h)。 - 对于连续变量(如剂量、时间),可将其离散化为若干分组后再做比较,或使用专门支持连续扰动的分析方法。
扰动对象(Perturbation objects):指在扰动因子下要比较的目标分组,可是整个样本集、指定的细胞类型、或更细的亚群(cluster/subcluster)。设置建议:
- 至少选择两个扰动对象(例如:
treatedvscontrol),并确保每组中有足够细胞数以保证统计/机器学习方法的稳健性(建议每组 >100 个细胞,视方法而定)。 - 当分析目标是细胞类型敏感性时,建议按细胞类型或子群逐个运行扰动分析,以获取每类细胞的响应优先级。
- 对于存在批次效应或样本间差异的数据,需在设置时考虑批次作为协变量或在预处理阶段进行批次校正。
- 至少选择两个扰动对象(例如:
TIP
推荐流程:先在全数据或目标样本中确认扰动因子列与分组,然后在生物学相关且细胞数充足的细胞类型上逐个运行扰动分析,以获取稳健的细胞类型优先级排序。
CAUTION
- 避免在细胞数极少的细胞类型上直接解读扰动结果;小样本会导致模型不稳定或过拟合。
- 若扰动因子在 metadata 中包含缺失值或不平衡分布,应先进行数据清洗或考虑下采样/上采样策略。
- 工具建议:可使用 Augur 对不同细胞类型进行优先级排序;同时建议和差异表达、调控网络、细胞通讯等方法结合,进行交叉验证以提高结果可信度。
ATAC 拟时序分析
ATAC 拟时序分析定义
scATAC-seq 数据中染色质可及性模式的连续性,通过降维和图形学习识别细胞在表观遗传空间中的连续路径,构建有向的发育轨迹,并基于指定的起始细胞计算伪时间值。单细胞多组学数据包含 scRNA-seq 和 scATAC-seq 两个维度的信息,染色质可及性的时间动态变化常常先于转录,比表达更早提示关键调控事件,适合挖掘调控机制和命运决定相关节点——侧重"原因"视角。
查看更多内容(展开/收起)
ATAC 拟时序分析的意义
细胞分化是一个连续的过程,涉及表观遗传状态的渐进性改变。在单细胞分辨率下,我们可以观测到:
- 揭示细胞分化的连续性:不同分化阶段的细胞同时存在于样本中,拟时序分析能够将这些异步细胞按照内在分化进程重新排序,揭示从起始状态到终末状态的连续变化轨迹。
- 捕捉表观遗传状态的动态变化:染色质可及性模式随分化进程发生系统性变化,通过拟时序分析可以识别在分化过程中关键调控元件(peaks)的开放/关闭状态,揭示表观遗传重塑的动态规律。
- 理解细胞命运决定机制:关键调控元件(peaks)的开放/关闭状态与细胞命运决定密切相关,拟时序分析有助于定位命运分歧点并识别驱动细胞命运选择的表观遗传调控因子。
ATAC 拟时序分析方法有哪些?我应该如何选择
| 工具 | 核心原理 | 优点 | 缺点 | 适用场景与推荐 |
|---|---|---|---|---|
| ATAC_Monocle3 | 伪时间 + UMAP 嵌入。基于 Monocle3 框架,针对 scATAC-seq 数据的极度稀疏性,采用 LSI(Latent Semantic Indexing)预处理,在 UMAP 降维空间上学习图结构来推断轨迹,并基于指定的起始细胞计算伪时间值。 | - 速度快,规模大:对超大规模 ATAC 数据集友好,能处理百万级别细胞 - 表观遗传特异性:专门针对染色质可及性数据优化,采用 LSI 降维处理数据稀疏性 - 兼容性好:与主流单细胞 ATAC 分析流程(如 Seurat)兼容性好 - 轨迹清晰:能够识别复杂的分支轨迹,揭示细胞分化路径 | - 起点依赖:需要用户指定轨迹起点(root cells),起点选择对结果影响较大 - 数据质量要求高:需要高质量的 scATAC-seq 数据和准确的 UMAP 降维结果 - 仍在发展:算法仍在快速迭代,对于极复杂分支的解析能力有时不如转录组 Monocle 2 稳定 | 基于 scATAC-seq 数据的首选推荐。当您想基于染色质可及性数据重建细胞分化轨迹、识别表观遗传动态变化时,ATAC_Monocle3 是经过优化的、最可靠的选择。特别适合注重表观遗传调控或发育早期事件的研究。 |
选择建议:
- 基于 scATAC-seq 数据:ATAC_Monocle3 是专门针对 ATAC 数据优化的工具,推荐使用。
- 多组学整合:如需同时分析 scRNA-seq 和 scATAC-seq,可分别使用 Monocle 3 和 ATAC_Monocle3,然后整合两类数据的伪时间结果,获得更全面的视角。
ATAC 拷贝数变异(CNV)分析
ATAC 拷贝数变异分析定义
拷贝数变异(Copy Number Variation, CNV)是基因组结构变异的一种,指的是与参考基因组相比,长度大于 1kb 的 DNA 片段的拷贝数增加或减少。在单细胞 ATAC 测序(scATAC-seq)数据中,可以通过分析基因组区域的读段数量来间接推断 CNV。如果某个染色体区域的读段数量整体升高或降低,可能意味着该区域发生了拷贝数的增加或减少。
单细胞多组学数据用于 CNV 分析主要有两个方向:
- 方向一:基于 scRNA-seq 数据 - 利用基因表达信息推断 CNV,主要工具为 InferCNV 和 CopyKAT
- 方向二:基于 scATAC-seq 数据 - 利用读段数量推断 CNV,主要工具包括 epiAneuFinder、AtaCNV、CopyscAT
基于 scATAC-seq 数据的 CNV 分析能够从表观遗传层面揭示肿瘤细胞的基因组结构变异,特别适合单细胞多组学研究。
查看更多内容(展开/收起)
ATAC 拷贝数变异分析的意义
单细胞 ATAC CNV 分析在肿瘤研究中具有极其重要的意义:
- 区分肿瘤细胞与非肿瘤细胞:肿瘤细胞通常伴随着大量的基因组不稳定性,表现为广泛的 CNV。通过分析单个细胞的 CNV 模式,可以有效地区分出恶性肿瘤细胞和混杂在肿瘤组织中的正常细胞(如免疫细胞、基质细胞等)。
- 揭示肿瘤的克隆异质性:肿瘤组织由具有不同基因组特征的亚克隆组成。单细胞 CNV 分析能够识别具有不同 CNV 模式的肿瘤亚克隆,从而揭示肿瘤内部的克隆结构和演化关系。
- 鉴定肿瘤关键驱动基因:通过 CNV 分析,可以定位到频繁发生拷贝数增加或减少的染色体区域,这些区域可能包含关键的癌基因或抑癌基因,为寻找新的治疗靶点提供线索。
- 评估肿瘤演化和耐药机制:通过比较不同治疗阶段或不同转移灶的肿瘤细胞 CNV 模式,可以追踪肿瘤的演化路径,并研究与耐药性产生相关的基因组变异。
- 整合表观遗传与基因组信息:结合染色质可及性数据和 CNV 信息,可以揭示拷贝数变异如何影响染色质开放状态,深入理解表观遗传调控机制。
TIP
ATAC CNV 分析特别适用于研究以下生物学问题:
- 肿瘤组织样本的恶性细胞识别
- 肿瘤内部的克隆异质性和亚克隆结构解析
- 癌前病变或发育异常样本的早期基因组结构变异检测
- 表观遗传状态与基因组结构变异的关系
ATAC 拷贝数变异分析方法有哪些?我应该如何选择
| 工具 | 核心原理 | 优点 | 缺点 | 适用场景与推荐 |
|---|---|---|---|---|
| epiAneuFinder | 读段计数 + LSI 降维。利用 scATAC-seq 数据中比对到基因组区域的读段数量作为 DNA 拷贝数的代理指标,采用 LSI(Latent Semantic Indexing)预处理,通过统计模型分析每个窗口的读取计数推断 CNV。 | - 算法成熟:算法经过验证,结果稳定可靠 - 数据预处理完善:自动移除 ENCODE 黑名单区域,过滤低覆盖窗口 - 窗口可调:默认 100kb 窗口,可根据数据特点调整 - 结果直观:提供清晰的 CNV 热图可视化 | - 需要用户指定参数:窗口大小等参数需要根据数据特点调整 - 计算时间较长:对大规模数据计算时间较长 - 参考依赖:需要足够的细胞数量和合适的样本类型 | 经典可靠选择。当您想要使用经过验证的、稳定的方法进行 ATAC CNV 分析时,epiAneuFinder 是可靠的选择。特别适合标准化的肿瘤样本分析。 |
| CopyscAT | 自动识别对照 + 多层次检测。利用 scATAC-seq 数据的读段数量推断 CNV,能够自动识别非肿瘤细胞作为对照,并检测局部 CNV、片段水平 CNV 和染色体臂水平 CNV。 | - 自动识别对照:能够自动识别非肿瘤细胞并使用它们作为对照,无需手动指定 - 多层次检测:能够检测局部 CNV(如 ecDNA)、片段水平和染色体臂水平 CNV - 双分钟检测:能够识别基因组中的高拷贝数扩增区域 - 适合复杂肿瘤:特别适合处理具有高水平肿瘤内异质性的复杂样本 | - 算法复杂:基于共识聚类的分析方法,计算复杂度较高 - 参数较多:需要设置多个参数(如分析方法、NMF 组件数等) - 数据要求:对数据质量要求较高 | 复杂肿瘤首选。当您需要处理具有高水平异质性的复杂肿瘤(如胶质母细胞瘤),或需要检测局部 CNV 和双分钟时,CopyscAT 是最佳选择。 |
| AtaCNV | 高分辨率检测 + 多模式标准化。以 1 Mbp 基因组片段为单位进行高分辨率 CNV 检测,提供四种标准化模式,通过数据平滑、联合分段和贝叶斯推断等方法提高检测准确性。 | - 高分辨率:1 Mbp 窗口提供高分辨率的 CNV 检测,能够精确定量拷贝数状态 - 多种标准化模式:提供四种标准化模式(匹配正常样本、已知正常细胞、所有细胞、自动识别),灵活适应不同数据情况 - 数据平滑去偏差:自动进行数据平滑处理,并消除 GC 含量可能引起的潜在偏差 - 自动识别恶性细胞:通过 CNV 负荷评分自动识别恶性细胞 - 联合分段算法:应用多样本 BIC-seq 算法提高检测准确性 | - 标准化模式选择重要:需要根据数据情况选择合适的标准化模式,选择不当可能影响结果 - 计算资源要求高:高分辨率检测和联合分段算法需要较高的计算资源 - 数据质量要求高:需要高质量的 scATAC-seq 数据 | 高分辨率检测首选。当您需要高分辨率的 CNV 检测,或有匹配的正常样本或已知的正常细胞时,AtaCNV 是最佳选择。特别适合需要精确拷贝数定量的研究。 |
选择建议:
- 标准肿瘤样本分析:epiAneuFinder(算法成熟稳定,适合大多数标准化分析场景)
- 复杂肿瘤或需要多层次检测:CopyscAT(自动识别对照,能够检测局部 CNV 和双分钟,适合复杂异质性肿瘤)
- 高分辨率检测或有正常参考:AtaCNV(1 Mbp 高分辨率,多种标准化模式,适合需要精确定量的研究)
- 探索性分析:建议先使用 epiAneuFinder 或 AtaCNV 进行初步分析,了解数据特征后再决定是否需要 CopyscAT 的高级功能
- 验证性分析:可以同时使用多种工具进行交叉验证,确保结果的可靠性
- 与转录组 CNV 分析整合:如果数据包含 scRNA-seq 信息,可以同时使用 InferCNV 或 CopyKAT 进行分析,两种方法的结果可以相互验证,获得更全面的视角
基因活力(GeneActivity)分析
基因活力分析定义
基因活力(GeneActivity)分析通过计算基因体及其上游调控区域的染色质可及性,推断潜在的转录活性,以弥补单细胞 ATAC 数据中"只有开放区域,没有基因表达量"的信息缺口。在单细胞多组学研究中,scATAC-seq 数据提供了染色质开放状态的信息,但无法直接反映基因的转录活性。GeneActivity 分析通过统计每个基因的启动子(通常取 TSS 上游 2 kb)与基因体区域内的 fragment 数量,经过标准化后得到活性值,从而推断该基因是否具备转录潜力。
GeneActivity 与 Gene Expression 的区别在于:
- GeneActivity:基于 scATAC-seq 数据,反映染色质开放程度和潜在转录能力
- Gene Expression:基于 scRNA-seq 数据,反映 mRNA 实际丰度
两者通常正相关,但也会因表观遗传沉默、转录后调控或技术噪音而出现不一致,对比两者可更深入理解调控机制。
查看更多内容(展开/收起)
基因活力分析的意义
基因活力分析在单细胞多组学研究中具有重要的生物学意义:
- 推断潜在转录活性:通过统计基因体及其上游调控区域内的染色质可及性信号,推断每个基因的潜在转录活性,为基因功能解读提供基础。这对于只有 ATAC 数据而没有 RNA 数据的情况特别有用。
- 辅助细胞类型注释:基因活力信息可以用于辅助细胞类型识别和注释,弥补 ATAC 数据缺乏基因表达信息的不足,使基于 ATAC 数据的细胞类型注释更加准确。
- 识别差异可及性基因:通过比较不同细胞群体(如细胞类型、状态、处理组等)的基因活力值,可以识别在特定群体中显著高或低活力的调控基因,类似于差异表达分析。
- 整合多组学信息:结合 scRNA-seq 和 scATAC-seq 数据,可以对比不同细胞群在 RNA 表达与 ATAC 基因可及性两个层面的异质性和相关性,通过 Spearman 秩相关系数评估细胞群间的相似性,揭示表观遗传调控与转录表达的一致性或解耦关系。
- 揭示转录调控机制:通过分析基因活力与基因表达的一致性和差异,可以发现仅开放未表达、仅表达未开放等特殊调控现象,揭示表观遗传调控的复杂性。
TIP
基因活力分析特别适用于研究以下生物学问题:
- 基于 ATAC 数据的细胞类型注释
- 识别不同细胞群体间的基因活力差异
- 整合多组学数据,揭示表观遗传调控与转录表达的关系
- 发现潜在的关键调控基因和调控机制
基因活力分析方法与应用
基因活力分析主要通过统计基因区域内的 fragment 数量来实现,核心计算步骤包括:
定义基因区域:确定每个基因的统计范围,通常包括基因体(gene body)和上游启动子区域(默认 TSS 上游 2 kb)。该范围既包含核心启动子也记录转录延伸阶段的可及性。
统计 fragment 数量:统计每个基因区域内每个细胞中的 fragment 数量。fragment 是 Tn5 转座酶在开放染色质区域切割所得的 DNA 片段,是 ATAC 信号的载体。
标准化输出:对统计得到的 fragment 计数进行标准化处理,生成基因活力矩阵。该矩阵的行对应基因,列对应单细胞,矩阵元素为基因区域的标准化 fragment 计数。
主要应用场景:
- 差异基因活力分析:使用GeneActivity工具进行差异分析,识别不同细胞群体间基因活力的差异。分析方法类似于差异表达(DEG)分析,通过比较不同细胞群体(如不同细胞类型、不同处理组)的基因活力值,找到在特定群体中显著高活力的基因。
- 多组学相关性分析:比较不同细胞群在 RNA 表达与 ATAC 基因可及性两个层面的异质性和相关性,通过 Spearman 秩相关系数评估细胞群间的相似性,揭示表观遗传调控与转录表达的一致性或解耦关系。
- 可视化展示:提供 FeaturePlot、双热图、小提琴图、气泡图等多种可视化方法,直观展示基因活力与基因表达的关系。
推荐工具:
- 可使用GeneActivity完成基因活力计算、差异分析和多组学相关性分析。
Peak2Gene 分析
Peak2Gene 分析定义
Peak2Gene(Peak-Gene linking)分析是一种专为单细胞多组学(ATAC+RNA)数据设计的方法,其核心目标是识别基因表达与其附近染色质可及性峰(peaks)之间的显著调控关系。Peak2Gene 分析通过统计每个细胞中基因表达量与其附近 peaks 的 ATAC 信号强度间的相关性,并利用广义线性模型校正 GC 含量、peak 长度、距离等技术偏置,从而推断哪个 peak 可能参与调控哪些基因。
Peak2Gene 分析与传统距离注释的区别:
- Peak2Gene 分析:基于单细胞水平的相关性分析,使用广义线性模型校正技术偏置,能够识别细胞类型特异性的 peak-gene 关联,提供更可靠的调控证据
- 传统距离注释:仅基于线性距离进行注释,无法考虑实际的相关性证据和技术偏置,准确性较低
Peak2Gene 分析不仅帮助揭示顺式调控网络(如增强子-基因连接),还能与 motif 富集/活性结果结合,系统性挖掘关键转录因子的直接靶基因和调控作用,是多组学调控机制研究的基础工具之一。
查看更多内容(展开/收起)
Peak2Gene 分析的意义
Peak2Gene 分析在单细胞多组学研究中具有重要的生物学意义:
- 识别 peak-gene 调控关系:通过计算基因表达量与其邻近 peaks 的可及性信号之间的相关性,识别可能调控该基因的 peak 集合,克服仅靠线性距离注释的局限,提供更准确的调控关系推断。
- 构建顺式调控网络:帮助揭示顺式调控网络(如增强子-基因连接),为多组学调控机制研究提供基础,是解析基因调控网络(GRN)的关键环节。
- 校正技术偏置:使用广义线性模型校正 GC 含量、整体可及性、peak 长度等多种技术偏置,获得更为可靠的 peak-gene 关联,提高分析结果的准确性。
- 整合多组学信息:结合 motif 富集/活性结果,系统性挖掘关键转录因子的直接靶基因和调控作用,构建完整的 TF→peak→gene 调控轴,实现"TF 表达 × motif-peak 结合 × 靶基因表达"的三维整合。
- 揭示细胞类型特异性调控:能够在每个细胞分辨率下识别细胞类型特异性的 peak-gene 关联模式,揭示不同细胞类型间的调控差异,深入理解细胞命运决定机制。
TIP
Peak2Gene 分析特别适用于研究以下生物学问题:
- 构建基因调控网络(GRN),识别 TF→peak→gene 调控轴
- 识别增强子-基因连接等顺式调控元件
- 揭示细胞类型特异性的调控机制
- 整合 motif 分析,系统性挖掘关键转录因子的直接靶基因
- 理解表观遗传调控与转录表达的因果关系
Peak2Gene 分析方法与应用
Peak2Gene 分析的核心算法包括以下关键步骤:
筛选邻近 peaks:对于每个目标基因,筛选距离该基因(如±500kb)范围内的 peaks。
计算相关性:计算这些 peaks 可及性与基因表达的相关性,通过统计每个细胞中基因表达量与其附近 peaks 的 ATAC 信号强度间的相关性来评估调控关系。
偏置校正:使用广义线性模型校正 GC 含量、整体可及性、peak 长度、距离等多种技术偏置,获得更为可靠的 peak-gene 关联。
显著性评估:通过统计检验评估 peak-gene 关联的显著性,筛选出具有统计学意义的调控关系。
这种方式可以精确定量每个 peak 对靶基因的调控支持证据,是重构多组学调控网络的关键环节。
主要应用场景:
- peak-gene 关联识别:使用Peak2Gene工具进行关联分析,识别可能调控目标基因的 peak 集合。分析结果包括 peak-gene 相关性热图、关联数量分布、显著性火山图等多种可视化展示。
- 与 Motif 分析整合:结合 motif 富集分析结果,构建完整的 TF→peak→gene 调控轴。通过整合 motif 分析(识别 TF→peak 关系)与 Peak2Gene 分析(识别 peak→gene 关系),系统性描绘转录因子、调控元件 peak 及其作用靶基因三者间的直接调控关系。
- 差异 peak 分析整合:结合差异 peak 分析结果,识别具有生物学意义的 peak-gene 关联,重点关注在特定条件下差异开放的 peaks 及其调控的靶基因。
- 功能富集分析:对关联的基因进行功能富集分析,揭示调控的生物学功能和通路,深入理解调控机制。
- 调控网络构建:基于 peak-gene 关联构建基因调控网络,为多组学调控机制研究提供系统性的框架。
推荐工具:
- 可使用Peak2Gene完成 peak-gene 关联识别、相关性分析和调控网络构建。
标准分析流程:
- 差异 peak 筛选:定位具有生物学意义的开放区域
- Peak2Gene 注释:整合表达及距离,建立 peak-gene 关联
- Motif 分析:鉴定及评估 motif 富集和活性,预测关键 TF
- 多组学联合验证:分析 motif 活性、TF/靶基因表达和 peak 可及性之间的调控一致性
生态位(Spatial Niche)分析
生态位分析定义
生态位分析(Spatial Niche Analysis)是一类用于从空间转录组学数据中识别、表征和比较空间域(spatial domains)或细胞生态位的重要方法。这些空间域由具有特定细胞类型混合模式的细胞群体组成,反映了组织内不同功能区域的空间组织结构。生态位分析通过结合细胞的内在特征(如基因表达、蛋白质表达)和邻近细胞的特征,将细胞分配到不同的空间聚类中,从而揭示组织内细胞的空间分布模式和功能组织。
查看更多内容(展开/收起)
生态位分析的意义
生态位分析在空间转录组学研究中具有重要的生物学意义:
- 揭示组织空间组织结构:通过识别具有特定细胞类型混合模式的空间域,可以理解组织的功能分区和空间组织原则。
- 发现细胞-细胞相互作用:空间域内的细胞类型组合模式反映了细胞间的相互作用和功能协同关系。
- 理解疾病病理机制:在疾病状态下,空间域的组织结构可能发生改变,生态位分析有助于揭示疾病相关的空间重塑。
- 指导治疗策略:通过识别疾病相关的空间域变化,可以为精准治疗和药物靶点选择提供空间信息。
- 比较不同条件:可以比较不同实验条件、疾病状态或时间点下的空间域差异,揭示动态变化过程。
TIP
生态位分析特别适用于研究具有复杂空间组织结构的生物学问题,例如:
- 肿瘤微环境的空间异质性
- 发育过程中的组织形态发生
- 免疫细胞在组织中的空间分布模式
- 神经系统的空间功能分区
生态位分析方法有哪些?我应该如何选择
| 工具 | 核心原理 | 优点 | 缺点 | 适用场景与推荐 |
|---|---|---|---|---|
| Banksy | 空间邻域特征融合。通过计算每个细胞周围 k 个最近邻细胞的表达特征,构建空间邻域特征矩阵,结合细胞自身表达特征进行聚类分析。 | - 空间信息整合:有效融合细胞自身表达和空间邻域信息 - 参数可调:通过 λ 参数平衡表达特征与空间信息的重要性 - 算法成熟:基于经典的 Leiden/Louvain 聚类算法,结果稳定可靠 - 可视化丰富:提供空间聚类图和 UMAP 降维可视化 | - 参数敏感:需要调整 λ、k_geom 等参数以获得最佳结果 - 计算复杂度:对大规模数据计算时间较长 | 首选推荐。当您想深入理解细胞的空间组织模式,特别是需要平衡基因表达和空间位置信息时,Banksy 是最佳选择。 |
| CellCharter | 多样本空间域识别。基于 scVI/scArches 进行降维和批次效应校正,使用高斯混合模型(GMM)进行空间聚类,支持多样本同时分析。 | - 多样本支持:可同时处理多个样本,自动处理批次效应 - 高扩展性:支持百万级细胞和数千个特征的大规模数据 - 多数据类型:支持空间转录组、蛋白质组、表观基因组和多组学数据 - 自动优化:提供自动确定最佳聚类数的方法 - GPU 加速:支持 GPU 计算,处理速度快 | - 算法复杂:基于深度学习模型,需要一定的计算资源 - 参数设置:需要根据数据类型选择合适的降维方法 - 结果解释:需要结合生物学知识解释聚类结果 | 当您需要处理多样本数据或大规模数据集时,CellCharter 是高效的选择。特别适合需要批次效应校正和多组学数据整合的场景。 |
选择建议:
- 标准空间聚类分析:Banksy(经典可靠,参数可控,结果易解释)
- 多样本或大规模数据分析:CellCharter(高效处理,自动批次校正)
- 探索性分析:建议先使用 Banksy 进行初步分析,了解数据特征后再决定是否需要 CellCharter 的高级功能
- 验证性分析:可以同时使用两种方法进行交叉验证,确保结果的可靠性
常见误区与最佳实践
WARNING
- 避免过度依赖单一参数:不同 λ 值可能产生不同的聚类结果,建议测试多个参数值
- 注意空间分辨率:确保 k_geom 参数与数据的空间分辨率相匹配
- 验证聚类结果:结合生物学知识和已知标记基因验证聚类结果的合理性
TIP
最佳实践建议:
- 先进行探索性分析,测试不同参数组合
- 结合差异表达分析验证聚类结果
- 使用多种可视化方法展示空间分布模式
- 考虑数据的生物学背景选择合适的分析方法
参考资料
- Banksy 官方仓库:
https://github.com/prabhakarlab/Banksy - CellCharter 官方仓库:
https://github.com/CSOgroup/cellcharter - 空间转录组学综述:
https://doi.org/10.1038/s41588-023-01588-4
空间细胞通讯(Spatial Cell-cell Communication)分析
空间细胞通讯定义
空间细胞通讯分析(Spatial Cell-cell Communication Analysis)是一类结合空间转录组学数据,在考虑细胞空间位置信息的前提下,推断细胞间通过配体-受体(ligand-receptor, L-R)相互作用进行信号传递的分析方法。与传统的单细胞细胞通讯分析不同,空间细胞通讯分析不仅考虑配体和受体基因的共表达,还整合了细胞的空间邻近关系、距离信息以及配体分子的扩散特性,从而更准确地推断哪些细胞对之间真正发生了信号交换,以及信号传递的方向性和强度。
查看更多内容(展开/收起)
空间细胞通讯分析的意义
空间细胞通讯分析在空间转录组学研究中具有重要的生物学意义:
- 揭示真实的细胞间相互作用:通过整合空间距离信息,过滤掉在空间上相距较远、不太可能发生直接通讯的细胞对,减少假阳性结果,提高预测的准确性。
- 推断信号传递的方向性:某些方法(如 COMMOT)能够推断信号从哪个细胞传递到哪个细胞,识别信号的发送者和接收者,揭示组织中的信号流动模式。
- 理解组织微环境的信号网络:在肿瘤、免疫、发育等复杂组织中,细胞通讯的空间模式对于理解组织功能和疾病机制至关重要。空间细胞通讯分析能够揭示不同空间区域(如肿瘤核心区、免疫浸润区、正常区域)的特异性通讯模式。
- 发现配体扩散和梯度效应:某些配体分子(如形态发生素、趋化因子)能够扩散形成浓度梯度,影响远距离的细胞。空间细胞通讯分析能够捕捉这些长距离信号传递现象。
- 预测下游信号响应:通过结合配体-受体互作和下游基因表达模式,可以预测哪些基因受到细胞通讯调控,为功能验证提供候选靶点。
TIP
空间细胞通讯分析特别适用于研究以下生物学问题:
- 肿瘤微环境中癌细胞与免疫细胞、成纤维细胞、内皮细胞等的相互作用
- 发育过程中的形态发生和组织模式形成(如神经管、肢芽发育)
- 免疫细胞在淋巴组织或炎症部位的募集和激活
- 组织稳态维持中的反馈调控机制(如表皮、肠上皮)
- 神经系统中的突触信号传递和神经-胶质细胞相互作用
空间细胞通讯分析方法有哪些?我该如何选择
| 工具 | 核心原理 | 优点 | 缺点 | 适用场景与推荐 |
|---|---|---|---|---|
| COMMOT | 集合最优传输算法。基于最优传输理论,将配体分子从发送细胞到接收细胞的分配问题建模为传输成本最小化问题,同时考虑空间距离和配体-受体表达。能够推断信号流方向和下游基因响应。 | - 方向性推断:能够识别信号的发送者和接收者,揭示信号流动方向 - 配体扩散建模:考虑配体分子的扩散特性,支持短距离和长距离信号 - 下游基因预测:能够预测受信号调控的下游基因 - 理论基础扎实:基于最优传输理论,数学原理清晰 | - 计算复杂度高:对大规模数据计算时间较长 - 参数选择:需要选择合适的信号类型(接触依赖型、分泌型、细胞外基质型) - 数据要求:需要准确的空间坐标和细胞类型注释 | 方向性信号研究首选。当您想要了解信号在组织中的传播方向,或需要预测下游响应基因时,COMMOT 是最佳选择。特别适合发育生物学和形态发生研究。 |
| CellPhoneDB_spatial | 空间约束的置换检验。基于 CellPhoneDB v5 数据库和亚基最小表达原则,通过定义空间微环境(如通过 Banksy 识别的空间域),只在同一微环境内的细胞间进行配体-受体显著性检验。 | - 数据库权威:使用手工整理的 CellPhoneDB 数据库(约 3000 对配体-受体),高可信度 - 复合物识别:准确处理多亚基复合物(如整合素、免疫球蛋白) - 统计严格:基于置换检验,提供可靠的显著性评估 - 微环境分析:支持定义和比较不同空间微环境的通讯差异 | - 不推断方向:只识别配体-受体对,不推断信号方向 - 微环境依赖:需要预先定义空间微环境或空间域 - 数据库限制:主要基于人类数据,其他物种需要同源基因转换 | 严格统计验证首选。当您需要高置信度的配体-受体对识别,或想要比较不同空间微环境(如肿瘤区 vs 正常区)的通讯差异时,CellPhoneDB_spatial 是可靠选择。 |
| CellChat_spatial | 空间约束的质量作用定律。基于 CellChat 框架,通过引入距离因子调整细胞间通讯概率,区分接触依赖型和分泌型信号。提供丰富的通路和网络分析功能。 | - 通路级分析:将配体-受体对归类到信号通路,提供系统级视图 - 角色识别:识别每个细胞类型的发送者/接收者/调节者角色 - 可视化丰富:提供圈图、弦图、等级图等多种可视化 - 距离因子:灵活调整空间距离对通讯概率的影响 | - 不推断方向:在细胞类型水平分析,不识别单个细胞对的信号方向 - 参数较多:需要设置多个参数(如 interaction.range、scale.distance 等) - 计算时间:对大规模数据计算时间较长 | 系统级通路分析首选。当您想要从通路和网络的角度理解细胞通讯模式,或需要比较不同样本/条件下的通讯网络变化时,CellChat_spatial 是强大工具。 |
| stLearn | 空间约束双水平置换检验(SCTP)+ SME 整合框架。通过整合空间距离(Spatial)、组织形态(Morphology)和基因表达(Expression)三种数据类型,采用双水平置换检验(细胞类型置换+空间位置置换)推断空间邻近细胞间的配体-受体互作。 | - 低假阳性率:双水平置换检验显著降低假发现率(比传统方法降低 60%以上) - SME 整合:同时利用空间、形态和表达信息,更符合组织生物学实际 - 空间特异性:只考虑空间邻近细胞对,排除不可能的互作 - 网格化分析:支持网格模式降低计算复杂度 | - 单样本分析:一次只能分析一个样本 - 参数依赖:需要设置 spot_diameter、n_grid 等空间参数 - 主要针对 spot-based 数据:特别优化 for Visium 等技术平台 - 可视化相对简单:主要提供诊断图和显著性图 | Visium 数据严格验证首选。当您使用 10x Visium 等 spot-based 空间转录组数据,需要严格控制假阳性率并希望整合形态信息时,stLearn 是可靠选择。特别适合肿瘤微环境研究。 |
选择建议:
- 研究信号传播方向和梯度效应:COMMOT(唯一能推断信号流方向的工具,适合发育和形态发生研究)
- 严格的配体-受体对验证:CellPhoneDB_spatial(基于权威数据库和严格统计,适合需要高可信度结果的场景)
- 系统级通路和网络比较:CellChat_spatial(丰富的通路分析和可视化,适合多样本比较和机制探索)
- 探索性分析:建议先使用 CellChat_spatial 获得全局视图,再使用 COMMOT 深入研究感兴趣的信号通路的方向性
- Visium 数据分析:stLearn(针对 Visium 数据优化,提供低假阳性率的严格验证)
常见误区与最佳实践
WARNING
- 空间≠因果:空间邻近性和配体-受体共表达只能提示可能的细胞通讯,不能证明因果关系。关键发现需要功能实验验证(如配体刺激、受体阻断、基因敲除等)。
- 避免过度解读:计算预测的通讯强度是相对值,不同工具的强度值不能直接比较,也不一定反映真实的生物学强度。
- 注意数据质量:空间细胞通讯分析高度依赖于准确的空间坐标、细胞类型注释和基因表达数据质量。
TIP
最佳实践建议:
- 多工具验证:使用至少两种工具进行分析,关注被多个工具共同识别的配体-受体对
- 文献支持:查阅已有文献,优先关注在相关组织/细胞类型中有文献支持的通讯
- 表达验证:使用免疫荧光、RNAscope 等方法验证关键配体和受体的空间表达模式
- 功能验证:通过配体刺激、受体阻断或基因编辑等实验验证预测的细胞通讯的功能重要性
- 结合其他分析:将细胞通讯分析与差异表达、通路富集、转录因子分析等结合,形成完整的调控故事
参考资料
- COMMOT 文献:Cang Z, Nie Q. Inferring spatial and signaling relationships between cells from single cell transcriptomic data. Nature Communications 12, 3084 (2021).
- CellPhoneDB 文献:Efremova M, et al. CellPhoneDB: inferring cell-cell communication from combined expression of multi-subunit ligand-receptor complexes. Nature Protocols 15, 1484–1506 (2020).
- CellChat 文献:Jin S, et al. Inference and analysis of cell-cell communication using CellChat. Nature Communications 12, 1088 (2021).
- 空间转录组学细胞通讯综述:Armingol E, et al. Deciphering cell-cell interactions and communication from gene expression. Nature Reviews Genetics 22, 71–88 (2021).
空间共定位(Spatial Co-localization)分析
空间共定位分析定义
空间共定位分析(Spatial Co-localization Analysis)是一类用于从空间转录组或空间蛋白组数据中定量刻画生物学实体在组织内空间邻近关系的方法。分析对象既可以是 细胞类型/细胞亚群(基于注释的细胞标签),也可以是 分子特征(如配体–受体基因、信号蛋白)。通过构建空间邻域、计算共定位指数或结合多视角建模,该分析能够识别出在组织空间中倾向聚集(正共定位)或排斥(负共定位)的对象组合,为理解细胞互作、信号扩散与组织结构提供空间证据。
查看更多内容(展开/收起)
空间共定位分析的意义
- 解析组织空间微环境:定量比较细胞类型或信号分子的空间邻近性,揭示功能区域(如肿瘤免疫浸润区、发育层次)的空间组织原则。
- 识别潜在相互作用:细胞类型或配体–受体对在空间上的共定位往往暗示潜在细胞互作或局部信号调控,为后续通讯分析和功能验证提供候选。
- 评估条件差异:比较不同处理、疾病阶段或时间点的共定位模式,识别特定生物学状态下的空间重塑与调控变化。
- 指导实验验证与干预设计:共定位热点可作为空间成像、共培养或局部干预实验的优先区域,提高验证效率。
空间共定位分析方法有哪些?我该如何选择
| 工具 | 核心原理 | 优点 | 缺点 | 适用场景与推荐 |
|---|---|---|---|---|
| MISTy | 多视角空间建模框架。联合细胞内(intracellular)与细胞间(intercellular)视角,利用多视角随机森林建模目标特征的变异来源,并量化不同邻域视角对目标的空间影响。 | - 多视角整合:同时量化细胞内、邻域、远距等视角的贡献,揭示复杂空间调控 - 细胞类型级共定位:支持以细胞注释、功能特征或模块得分为目标,评估特定细胞类型对的空间影响力 - 可扩展性强:适用于单细胞/spot 数据、多模态特征与多样本联合建模 | - 需要高质量注释:细胞类型或特征定义需准确,否则模型解释偏差 - 计算开销大:多视角模型训练耗时,对大规模样本需较高算力 - 结果解释复杂:贡献度指标需结合可视化与生物学背景进行解读 | 细胞类型/功能模块共定位建模首选。当关注不同细胞类型或功能特征对目标细胞的空间影响,并希望量化多种空间视角贡献时,优先选择 MISTy。 |
| SpaGene | 空间受配体共定位检测。基于空间点模式和邻域统计,识别在空间上显著邻近的配体–受体基因对;结合表达阈值与距离约束,计算共定位得分与显著性。 | - 专注配体–受体共定位:直接针对分泌信号或细胞通讯分子的空间邻近关系 - 统计严格:通过置换背景生成经验分布,提供可靠的显著性评估 - 可扩展至多组对比:可比较不同条件下共定位得分变化,捕捉信号局部重塑 | - 依赖表达阈值:低表达配体/受体易被过滤,可能漏报稀有通讯 - 距离参数敏感:半径/邻域设定不当会导致假阳性或假阴性 - 需补充功能信息:仅提供空间邻近证据,仍需结合表达量及通路信息验证 | 配体–受体空间共定位首选。当重点关注信号分子的空间邻近性或希望筛选候选配体–受体对以开展通讯建模、空间成像验证时,推荐使用 SpaGene。 |
选择建议:
- 量化细胞类型互作强度:优先使用 MISTy,通过多视角模型评估特定细胞群对目标细胞或功能指标的空间贡献。
- 筛选空间邻近的配体–受体对:选择 SpaGene,对高表达信号分子进行空间共定位检测,并可与细胞通讯工具联用。
- 多层次组合策略:建议先以 SpaGene 筛选潜在信号对,再在细胞类型维度利用 MISTy 评估这些信号在细胞互作层面的空间影响,实现分子→细胞的双层验证。
- 多样本与条件比较:两种工具均支持分组对比,推荐在统一预处理与注释基础上,联合评估不同条件下的共定位差异。
常见误区与最佳实践
WARNING
- 空间共定位≠功能互作:无论是细胞类型还是配体–受体的空间邻近,仅说明在组织中位置接近,并不直接证明存在功能互作或信号传递,需结合通讯分析或实验验证。
- 忽视分辨率差异:spot 级别数据(如 Visium)存在细胞混合效应,直接进行细胞类型共定位易产生偏差;应结合去卷积结果或限制在高分辨率数据上。
- 参数沿用默认值:MISTy 的视角半径、SpaGene 的邻域距离/表达阈值对结果影响显著,需根据组织尺寸、数据分辨率和噪声水平做敏感性分析。
- 低表达基因未过滤:SpaGene 对低表达配体/受体敏感,未做表达阈值或背景过滤会放大噪声并产生假阳性。
TIP
最佳实践建议:
- 统一预处理:确保比较的样本在质控、归一化、批次校正与细胞类型注释流程一致,避免技术差异驱动的假共定位。
- 多尺度验证:结合空间散点图、局部核密度图等可视化手段,直观检查模型提示的共定位热点是否合理。
- 结合通讯分析:将 SpaGene 结果与 CellChat/COMMOT 等通讯工具互补,优先关注同时在空间与通讯层面显著的配体–受体对。
- 跨样本复现:在多个生物重复或不同空间切片中验证共定位模式的稳定性,提高结论可靠性。
- 实验佐证:对于关键共定位热点,推荐使用多重免疫荧光、RNAscope 或质谱成像等技术进行空间验证。
参考资料
- Tavernari D. et al. MISTy: Multiview intercellular spatial modeling for discovering cell neighborhoods. Nature Communications 14, 1747 (2023).
- Zhang L. et al. SpaGene identifies spatially proximate ligand–receptor interactions in tissues. Nature Communications 14, 5679 (2023).
- Armingol E. et al. Deciphering cell–cell interactions and communication from gene expression. Nature Reviews Genetics 22, 71–88 (2021).
突变(mut)分析
突变分析定义
突变分析(Mutation Analysis)是指从单细胞转录组数据中检测和分析单核苷酸变异(SNV)和插入缺失(Indel)的方法。通过整合突变矩阵与表达矩阵的联合建模,能够精确定位携带特定突变的细胞群,并评估这些突变细胞的功能通路变化,揭示突变与细胞状态、功能表型之间的关联。
查看更多内容(展开/收起)
突变分析的意义
- 识别突变细胞群:精确识别携带特定基因突变的细胞亚群,区分野生型和突变型细胞,为研究肿瘤异质性提供基础。
- 关联突变与功能:将基因突变与细胞功能状态关联,评估突变对基因表达和通路活性的影响,揭示突变的功能后果。
- 发现关键驱动突变:通过 Fisher 精确检验等统计方法,识别在特定细胞类型中显著富集的突变,提示潜在的驱动变异。
- 理解克隆演化:在多样本或纵向研究中,追踪突变的出现频率和分布变化,推断克隆演化轨迹和耐药机制。
- 指导精准医疗:为个体化治疗提供依据,识别可能的药物靶点或预测治疗响应,推动精准医疗实践。
工具选择与分析建议
- 工具建议:可使用 mut 完成突变分析。
TIP
最佳实践建议:
- 突变筛选:优先关注在特定细胞类型中显著富集(p 值 < 0.05)且覆盖度较高的突变位点。
- 多维度整合:将突变分析与差异表达、通路富集等结果整合,形成完整的生物学解释链条。
- 跨样本验证:在多个样本中验证关键突变的功能效应,提高结论的可靠性。
- 文献支持:结合已有文献,优先关注在相关疾病或生物学过程中有研究基础的突变基因。
lncRNA-mRNA 共表达分析
lncRNA-mRNA 共表达分析定义
lncRNA-mRNA 共表达分析(lncRNA-mRNA Co-expression Analysis)是指从单细胞转录组数据中识别和分析长链非编码 RNA(lncRNA)与信使 RNA(mRNA)之间表达相关性的一种方法。通过计算 lncRNA 与 mRNA 之间的表达相关性系数(如 Pearson 相关系数或 Spearman 相关系数),该分析能够构建 lncRNA-mRNA 共表达网络,识别可能具有功能关联的 lncRNA-mRNA 对,从而揭示 lncRNA 在基因表达调控中的潜在作用机制。
典型的分析思路包括:基于表达相关性识别显著共表达的 lncRNA-mRNA 对,通过功能富集分析推断 lncRNA 可能调控的生物学通路,结合已有知识库验证共表达对的功能关联性,为后续实验验证提供候选 lncRNA 及其潜在靶基因。
查看更多内容(展开/收起)
lncRNA-mRNA 共表达分析的意义
- 揭示 lncRNA 的调控功能:通过识别与特定 mRNA 显著共表达的 lncRNA,可以推断 lncRNA 可能调控的靶基因,为理解 lncRNA 在转录调控中的作用机制提供线索。
- 发现功能关联模块:通过构建 lncRNA-mRNA 共表达网络,可以识别在特定细胞类型或条件下协同表达的 lncRNA-mRNA 模块,揭示 lncRNA 参与的调控网络。
- 识别细胞类型特异性 lncRNA:通过分析 lncRNA 在不同细胞类型中的共表达模式,可以识别细胞类型特异性表达的 lncRNA 及其潜在功能,为细胞身份研究提供分子标记。
- 理解疾病相关机制:在疾病状态下, lncRNA-mRNA 共表达网络可能发生重构,通过比较疾病组与对照组的共表达差异,可以揭示疾病相关的 lncRNA 调控机制。
- 指导实验验证与靶点筛选:通过共表达分析筛选出的 lncRNA-mRNA 对可作为候选调控关系,指导后续的功能验证实验(如敲降、过表达)和药物靶点筛选。
TIP
lncRNA-mRNA 共表达分析特别适用于研究以下生物学问题:
- lncRNA 在细胞分化与发育中的作用机制
- 疾病(如癌症)中 lncRNA 的调控网络重构
- 细胞类型特异性 lncRNA 的功能注释
- lncRNA 介导的转录后调控机制
工具选择与分析建议
工具选择:
- 可使用 LncCoExpression 完成 lncRNA-mRNA 共表达分析。
分析建议:
- 相关性阈值:优先关注相关系数绝对值较大(如|r|>0.5)且统计显著(p 值 < 0.05)的 lncRNA-mRNA 对,提高结果的可靠性。
- 功能富集分析:对与同一 lncRNA 共表达的 mRNA 集合进行 GO/KEGG 等功能富集分析,推断 lncRNA 可能调控的生物学通路。
- 多维度整合:将共表达分析与差异表达、通路富集、转录因子分析等结果整合,形成完整的 lncRNA 功能注释链条。
- 文献验证:结合已有文献和数据库(如 LncRNAdb、NONCODE),优先关注有研究基础的 lncRNA 及其共表达对。
- 实验验证:对于关键 lncRNA-mRNA 共表达对,建议通过敲降/过表达实验、RNA 免疫共沉淀(RIP)或染色质构象捕获(Hi-C)等技术验证其功能关联性。
融合(Fusion)分析
融合分析定义
融合分析(Fusion Analysis)是指从单细胞转录组数据中检测和分析基因融合事件的方法。通过结合 STAR-Fusion 等算法和单细胞转录组数据,能够在细胞水平上识别融合基因、评估其分布模式,并提供详细的功能注释信息。基因融合作为重要的分子事件,在肿瘤发生、细胞分化和疾病进展中扮演着关键角色。
查看更多内容(展开/收起)
融合分析的意义
- 识别融合细胞群:精确识别携带特定融合基因的细胞亚群,区分融合型和非融合型细胞,为研究肿瘤异质性提供基础。
- 关联融合与功能:将基因融合与细胞功能状态关联,评估融合对基因表达和通路活性的影响,揭示融合的功能后果。
- 发现关键驱动融合:通过分析融合基因在不同细胞类型中的分布模式,识别与疾病发生、发展相关的潜在驱动融合。
- 指导精准医疗:为个体化治疗提供依据,识别可能的药物靶点或预测治疗响应,推动精准医疗实践。
- 理解疾病机制:通过解析融合基因的结构特性和功能影响,深入理解疾病发生的分子机制。
工具选择与分析建议
- 工具建议:可使用 Fusion 完成融合分析。
TIP
最佳实践建议:
- 融合筛选:优先关注 JunctionReadCount 和 SpanningFragCount 较高、存在 LargeAnchorSupport 且 FFPM 值显著的融合事件。
- 多维度整合:将融合分析与差异表达、通路富集等结果整合,形成完整的生物学解释链条。
- 细胞定位:通过 UMAP/TSNE 可视化,确定融合基因在不同细胞群体中的分布情况。
- 功能验证:对重要的融合事件进行后续实验验证,如 RT-PCR、FISH 等技术。
可变剪接(Alternative Splicing)分析
可变剪接分析定义
可变剪接(Alternative Splicing, AS)是真核生物中调节基因表达和产生蛋白质多样性的关键机制。通过不同的剪接方式,一个基因可以产生多种 mRNA 亚型(Isoform),从而翻译出功能各异的蛋白质。可变剪接分析旨在比较不同生物学条件下(如不同细胞群、不同处理组)的剪接模式差异,通过量化外显子跳跃(Skipped Exon)、内含子保留(Retained Intron)等剪接事件的频率变化,识别与特定生物学过程或疾病相关的关键调控。
查看更多内容(展开/收起)
可变剪接分析的意义
差异可变剪接分析与差异基因表达分析从不同层面解析基因调控,二者结合能提供更全面的视角,强烈建议同时进行。
- 差异基因表达分析:关注基因的 “量变”。它回答的问题是:“这个基因的总体转录本数量是增加了还是减少了?”
- 差异可变剪接分析:关注基因的 “质变”。它回答的问题是:“在基因总体表达量不变的情况下,其产生的不同 mRNA 亚型(Isoform)的比例是否发生了变化?”
一个基因可能整体表达量没有显著差异,但其主要的功能亚型从 A 变成了 B,这同样可能引起重要的生物学功能改变。因此,融合两种分析有助于更深入地揭示细胞异质性和功能多样性的分子基础。
工具选择与分析建议
- 工具建议:可使用 rMATS 完成可变剪接分析。
TIP
最佳实践建议:
- 合理筛选差异事件:筛选显著差异事件时,不能只看
FDR或P-value。务必结合效应大小的指标,如IncLevelDifference(剪接包含水平的差异)。一个常用的标准是FDR < 0.05且|IncLevelDifference| > 0.1。这确保了结果在统计上显著,并且生物学效应足够大(即两组间外显子包含比例至少有 10%的变化)。 - 结果进行实验验证:计算工具得到的结果是基于算法推断的。对于研究中发现的关键差异可变剪接事件,强烈建议使用 RT-PCR 等分子生物学实验进行验证,以确保结论的可靠性。
- 关注样本质量:RNA-Seq 的测序深度和读长会直接影响可变剪接事件的检测能力。测序深度越深、读长越长,越有利于准确识别和量化剪接事件。
