Skip to content

高级分析

作者: 高瑞峰
时长: 33 分钟
字数: 9.4k 字
更新: 2025-09-11
阅读: 0 次
云平台 使用说明 scRNA 单细胞转录组

概览

本章节汇总常用的单细胞转录组高级分析方法,旨在帮助研究者提取更丰富的生物学可解读的结论。我们以实用为导向,突出每种方法的定义、适用场景、云平台参数与结果解读要点和应用示例,并提供常见陷阱与优化建议,方便在云平台中进行数据分析。

TIP

如何阅读本节内容

  • 本节内容较长,建议使用页面右侧目录快速跳转到感兴趣的主题,按需展开具体内容。

拟时序(Pseudotime)分析

1. 拟时序分析定义

拟时序(Pseudotime)分析是一类用于从单细胞转录组数据中推断细胞在某一动态生物学过程(例如发育、分化、疾病进展或对刺激的响应)上相对进程的计算方法。它通过度量细胞间转录组相似性,将离散的细胞样本映射到一个低维空间并按其内在连续性进行排序,从而为每个细胞分配一个表示“进程进展程度”的相对标度(拟时序值)。需要强调的是,拟时序并不等同于真实时间,而是反映细胞状态在假定轨迹上的相对位置。

典型的分析思路包括:选择能够代表过程的排序基因、在低维空间中学习或拟合主图结构(如树状或图模型),并将细胞投影到该主图以计算拟时序值和识别分支点与终末状态。

查看更多内容(展开/收起)

2. 拟时序分析的意义

  • 克服细胞异步性:单细胞样本通常由处于不同发育或响应阶段的细胞混合构成,拟时序分析能将这些异步细胞按照内在进程重新排序,揭示连续的生物学变化。
  • 重建连续过程:相比于离散聚类,拟时序能展示细胞状态之间的连续转换轨迹,帮助理解从起始状态到终末状态的逐步变化。
  • 识别过渡态与稀有细胞:能够检测处于两个稳态之间的中间态细胞或稀有转变细胞,这些细胞往往承载关键的命运决定信息。
  • 发现动态调控基因与模块:通过分析基因表达随拟时序的变化,可以鉴定在过程不同阶段上调或下调的关键调控因子及协同变化的基因模块,为后续机制研究提供候选基因集。
  • 揭示分支点与命运决策:当轨迹包含分支结构时,拟时序分析可以定位命运分歧点并比较分支间的基因表达差异,从而提出关于细胞命运选择的可验证假设。
  • 指导实验设计与多方法互证:拟时序结果可用于指导时序采样、干预实验或谱系追踪等验证性实验;同时可与其他方法(如基于转录多样性的 CytoTRACE 或基于 RNA velocity 的 scVelo)结合,以增强结论的可靠性。

TIP

拟时序分析尤其适用于研究具有连续变化过程的生物学问题,例如:

  • 干细胞分化与发育
  • 免疫细胞的激活与耗竭
  • 疾病(如癌症)的发生与演进
  • 细胞对药物或环境刺激的响应过程

3. 拟时序分析方法有哪些?我应该如何选择?

工具核心原理优点缺点适用场景与推荐
Monocle 2伪时间 + DDRTree算法。通过降维和图学习,构建细胞在低维空间的最小生成树,是解析复杂分支的经典方法。- 结果稳定经典:构建的分支轨迹清晰,被大量文献验证和接受。
- 生态成熟:有大量教程和文献支持。
- 计算性能:对超大数据集(>10万细胞)计算较慢,内存消耗大。
- 起点依赖:需要用户指定轨迹起点。
首选推荐。当您想清晰地展示细胞如何从一个状态分化到多个不同终点状态时,Monocle 2是经过验证的、最可靠的选择。
Monocle 3伪时间 + UMAP嵌入。直接在UMAP等降维图上学习图结构来推断轨迹,流程更简化,是更新的分析策略。- 速度快,规模大:对超大数据集友好,能处理百万级别细胞。
- 兼容性好:与Scanpy等主流生态兼容性好。
- 仍在发展:算法仍在快速迭代,对于复杂分支的解析能力有时不如Monocle 2稳定和清晰。当处理超大规模数据集时,或当轨迹结构相对简单(如线性或单个分支)时,可作为高效的备选方案。
CytoTRACE转录多样性。基于核心假设:分化潜能越高的细胞,其活跃表达的基因数量越多;分化程度越高的细胞,基因表达模式越特化。- 完全无偏:无需指定起点,能自动预测细胞的分化潜能。
- 善于寻根:在确定轨迹的“根”(最原始细胞群)方面非常强大。
- 不生成轨迹图:它主要提供一个从高到低的分化潜能排序(一个数值),而不是一个可视化的路径图。当您不确定哪个细胞群是起点,或想客观验证Monocle等工具的起点选择是否正确时,强烈推荐使用。
scVeloRNA速度。通过定量pre-mRNA(未剪接)和mature-mRNA(已剪接)的丰度,推断每个细胞在“未来”几小时内的转录动态方向。- 预测“未来”:能揭示细胞状态转变的瞬时方向和速率,提供真实的动态信息。
- 揭示循环过程:对于描绘细胞周期等循环过程非常有效。
- 数据要求高:需要能有效捕获内含子读段的高质量数据。
- 结果解释复杂:速度矢量图可能较杂乱,需仔细解读。
当您想知道细胞状态转变的“方向”和“速度”,而不仅仅是“路径”时,是最佳选择。也适用于探索动态平衡系统。

总结与推荐

  • 标准流程Monocle 2 (描绘路径) + CytoTRACE (确定起点)。
  • 探索方向与速率:如果数据质量允许,可使用 scVelo 进行更深入的动态分析。
  • 超大数据集:优先考虑 Monocle 3

细胞通讯(Cell–cell communication)分析

1. 定义与意义

细胞通讯分析用于从单细胞/空间转录组数据中推断细胞群体间通过配体—受体(ligand–receptor, L–R)以及下游信号传导通路发生的信号交换。其目标不仅是识别可能的 L–R 对,还要从通路与系统层面量化群体间“发送/接收”角色与通路强度,为后续实验验证提供候选信号分子与机制假设。

TIP

细胞通讯结果为“预测性”而非“因果性”结论,务必结合表达证据、文献与实验验证(流式、原位或功能性阻断实验)。

查看更多内容(展开/收起)

2. 常用软件与核心差异

工具核心原理优点缺点适用场景与推荐
CellChat(R)基于 CellChatDB,聚合多亚基与辅因子信息,结合网络分析与通路汇总来量化通信强度与细胞角色丰富的可视化(circle/chord/sankey 等)、通路汇总与发送/接收角色分析;适合系统级比较依赖先验库覆盖;对超大数据集计算资源要求高;对低表达/稀有细胞敏感系统级通路比较、发送/接收角色识别与通路优先级排序的首选工具
CellPhoneDB(Python/CLI)使用亚基最小表达原则来表示复合物表达,采用细胞标签置换检验显著性对复合物敏感且统计方法保守严谨;对人类数据有成熟数据库官方以 HUMAN 为主(其他物种需映射);可视化与通路汇总相对有限人类数据的严格 LR 显著性筛查与保守结果验证首选
NicheNet(R)整合配体-受体、信号传导与 TF→靶基因网络,使用网络传播评估配体对靶基因的调控潜力能给出配体→靶基因的机制性预测与配体活性评分,适合解释受体细胞差异表达不直接提供群体间发送/接收强度度量,通常需要差异基因作为输入当研究重点是配体是否能解释受体细胞差异基因与下游调控机制时首选

备注:工具间的数据库覆盖、复合物注释与统计策略不同,会对检出结果产生显著影响;在报告候选时推荐跨工具交叉验证。

3. 优先推荐与选择建议

  • 如果目标是系统级可视化与通路比较(包含发送/接收角色分析):优先使用 CellChat(优秀的可视化与通路汇总能力)。
  • 如果使用人类数据且关注配受体对的统计显著性CellPhoneDB 是稳健选择(强调亚基最小表达策略与置换检验)。
  • 如果关注配体能否解释受体细胞差异基因与下游靶基因机制:使用 NicheNet 来产生配体→靶基因的候选清单与活性评分。
  • 综合策略(推荐):软件分析完成之后,建议使用湿实验或者空间数据验证等手段。

4. 常见误区

WARNING

  • 切忌仅依赖单一软件的“强度值”直接下实验结论;不同方法度量不同含义。
  • 避免在未统一注释与预处理的情况下直接比较不同组的数值;此类比较极易产生技术偏差。

5. 参考与扩展阅读(建议链接)

  • CellChat 官方仓库:https://github.com/sqjin/CellChat
  • CellPhoneDB 官方仓库:https://github.com/ventolab/CellphoneDB
  • NicheNet 官方仓库:https://github.com/saeyslab/nichenetr

拷贝数变异(CNV)分析

1. 拷贝数变异的定义

拷贝数变异(Copy Number Variation, CNV)是基因组结构变异的一种,指的是与参考基因组相比,长度大于1kb的DNA片段的拷贝数增加或减少。CNV是物种内和物种间基因组差异的重要来源,与许多疾病的发生发展密切相关,尤其是在肿瘤研究中,CNV是肿瘤异质性的一个重要特征。

在单细胞转录组测序(scRNA-seq)数据中,可以通过分析基因在基因组上连续区域的表达量变化来间接推断CNV。如果某个染色体区域的基因表达量整体升高或降低,可能意味着该区域发生了拷贝数的增加或减少。

查看更多内容(展开/收起)

2. 拷贝数变异分析的意义

单细胞CNV分析在肿瘤研究中具有极其重要的意义:

  • 区分肿瘤细胞与非肿瘤细胞:肿瘤细胞通常伴随着大量的基因组不稳定性,表现为广泛的CNV。通过分析单个细胞的CNV模式,可以有效地区分出恶性肿瘤细胞和混杂在肿瘤组织中的正常细胞(如免疫细胞、基质细胞等)。
  • 揭示肿瘤的克隆异质性:肿瘤组织由具有不同基因组特征的亚克隆组成。单细胞CNV分析能够识别具有不同CNV模式的肿瘤亚克隆,从而揭示肿瘤内部的克隆结构和演化关系。
  • 鉴定肿瘤关键驱动基因:通过CNV分析,可以定位到频繁发生拷贝数增加或减少的染色体区域,这些区域可能包含关键的癌基因或抑癌基因,为寻找新的治疗靶点提供线索。
  • 评估肿瘤演化和耐药机制:通过比较不同治疗阶段或不同转移灶的肿瘤细胞CNV模式,可以追踪肿瘤的演化路径,并研究与耐药性产生相关的基因组变异。

3. InferCNV 和 CopyKAT 的差异与选择建议

InferCNV和CopyKAT是两种广泛应用于利用scRNA-seq数据推断CNV的生物信息学工具。它们在算法原理、适用场景和结果侧重上有所不同。

工具核心原理优点缺点适用场景与推荐
InferCNV通过比较肿瘤细胞与一组“正常”参考细胞的基因表达谱,利用滑动窗口平滑基因表达来推断CNV。- 算法经典,结果可靠
- 专注于大规模染色体臂级变异
- 必须提供高质量的正常参考细胞
- 分辨率相对较低
- 计算量大,耗时较长
- 结果需用户自行解读和划分细胞群
适用于有明确、可靠的正常细胞作为参考(如癌旁、免疫细胞),且关注大规模变异的场景。
CopyKAT采用整合的贝叶斯方法,通过与基因组位置和表达的混合模型比较来识别CNV。- 无需预定义参考细胞,可自动识别
- 分辨率较高(~5Mb)
- 计算效率高,速度快
- 结果自动预测细胞的恶性/正常状态
- 结果的准确性依赖于数据中存在足量的正常细胞作为内参
- 对于复杂的肿瘤内部异质性,自动亚克隆划分可能过于简化
适用于无明确正常对照,或希望自动区分肿瘤/正常细胞的场景。其自动化特性使其成为探索性分析的优选。

选择建议:

  • 如果您的数据中包含明确、可靠的正常细胞作为参考(例如,来自癌旁组织的非上皮细胞,或明确注释的免疫细胞),并且您更关注大规模的染色体臂水平变异,InferCNV是一个经典且可靠的选择。
  • 如果您的数据中没有明确的正常细胞对照,或者您希望算法能自动区分肿瘤和正常细胞,并且对更高分辨率的CNV事件感兴趣,CopyKAT是更优的选择。其自动化程度更高,结果更易于解读。
  • 在实际分析中,可以同时使用两种工具进行分析,相互验证结果,以获得更可靠的结论。

调控网络(Regulatory Network)分析

1. 调控网络分析定义

调控网络分析是一类用于从单细胞转录组数据中推断基因间调控关系和识别功能模块的重要方法。它通过整合基因表达相关性、转录因子结合位点信息以及细胞类型特异性表达模式,构建细胞特异性的基因调控网络,从而揭示驱动细胞状态转变和功能分化的转录调控机制。

典型的分析思路包括:基于基因共表达模式识别协同调控的基因模块(如hdWGCNA),结合转录因子与靶基因的调控关系推断(如SCENIC),以及通过功能富集分析揭示模块的生物学意义。

查看更多内容(展开/收起)

2. 调控网络分析的意义

  • 揭示转录调控机制:通过构建基因调控网络,可以识别关键的转录因子及其调控的靶基因,揭示细胞状态转变背后的转录调控机制。
  • 识别功能基因模块:通过基因共表达网络分析,可以识别在特定细胞类型中协同表达的基因模块,为理解细胞功能提供线索。
  • 发现细胞类型特异性调控因子:通过分析调控子在不同细胞类型中的活性差异,可以识别细胞类型特异性的关键调控因子。
  • 理解细胞异质性的分子基础:调控网络分析有助于理解细胞异质性背后的基因调控差异,为细胞分类和功能注释提供分子依据。
  • 指导靶点筛选与机制研究:通过识别关键调控模块和调控因子,可以为后续的功能验证实验和药物靶点筛选提供候选基因集。
  • 整合多组学信息:调控网络分析可以整合基因表达、表观遗传和蛋白质相互作用等多组学信息,提供更全面的调控机制解析。

TIP

调控网络分析特别适用于研究具有复杂调控关系的生物学问题,例如:

  • 细胞命运决定的分子机制
  • 疾病相关基因的调控网络重构
  • 药物作用机制与耐药性研究
  • 发育过程中转录调控的动态变化

3. 调控网络分析方法有哪些?我应该如何选择?

工具核心原理优点缺点适用场景与推荐
hdWGCNA基因共表达网络 + 模块识别。基于基因表达相关性构建加权基因共表达网络,通过层次聚类识别功能相关的基因模块。- 模块化分析:能识别细胞类型特异性的功能基因模块
- 特征基因提取:通过模块特征基因(Module Eigengenes)量化模块活性
- 功能富集:结合GO/KEGG等功能富集分析揭示模块生物学意义
- 间接调控:主要基于共表达关系,不能直接验证调控关系
- 参数敏感:分析结果受软阈值等参数影响
首选推荐。当您想识别细胞类型中协同表达的基因模块并理解其功能时,hdWGCNA是成熟可靠的选择。
SCENIC调控网络推断 + 调控子活性评估。基于基因共表达模式推断转录因子与靶基因的调控关系,结合motif分析验证调控关系,并通过AUCell算法计算调控子活性。- 直接调控:能推断转录因子与靶基因的直接调控关系
- 调控活性量化:通过AUC值量化每个细胞中调控子的活性状态
- 细胞状态识别:基于调控网络活性对细胞进行分组和注释
- 计算复杂:分析流程相对复杂,计算资源要求高
- 数据质量要求高:对输入数据质量要求较高
当您想深入了解转录调控机制,识别关键转录因子及其调控的靶基因时,SCENIC是最佳选择。

基因集打分分析

1. 基因集打分分析的定义

基因集打分分析是一种在单细胞转录组数据中,用于评估预定义基因集活性的方法。通过为每个细胞或细胞群的活性进行综合打分,该方法能够量化特定生物学通路、功能或状态的富集程度。这种打分机制为揭示细胞内在异质性,以及深入探索不同细胞状态下的生物学差异提供了有力工具。

查看更多内容(展开/收起)

2. 基因集打分分析的意义

在单细胞研究中,基因集打分分析具有以下重要价值:

  • 功能注释:能够对未知的细胞群进行功能注释,揭示其扮演的生物学角色。
  • 状态比较:可以比较不同实验条件或细胞类型下,特定生物学通路的活性变化。
  • 异质性探索:有助于发现同一细胞群内部的功能异质性,通过活性差异识别不同状态的亚群。
  • 生物学洞察:为疾病机制、细胞分化、药物响应等复杂生物学过程提供关键的分子层面的解释。

3. 基因集打分分析方法有哪些?我应该如何选择?

工具核心原理优点缺点适用场景与推荐
scMetabolism基于VISION和AUCell算法,内置78个KEGG和REACTOME代谢通路。专门针对代谢通路优化,结果直观,易于解读。仅限于预定义的78个代谢通路,不适用于其他功能基因集。专注于细胞代谢通路分析。希望快速研究单细胞水平的代谢重编程时,推荐使用此模块。
GSVA采用非参数、无监督的方法,将基因表达矩阵转换为基因集富集分数矩阵。适用性广,可用于任何自定义或公共基因集;适合跨样本、跨条件的通路活性比较。结果的生物学意义解释依赖于基因集的质量;对于稀疏的单细胞数据可能不够敏感。通用的基因集变异分析。当需要基于MSigDB等大型公共数据库进行全面、无偏的通路分析时,推荐使用此模块。
Scoring集成了AUCell, UCell, singscore, AddModuleScore等多种常用打分算法。灵活性高,允许用户使用自定义基因集并比较不同算法的结果;有助于交叉验证。需要用户对不同算法的原理和适用性有一定了解,以便选择最合适的方法。灵活的基因集打分工具。当用户有自定义基因集,或希望通过多种不同算法交叉验证结果时,推荐使用此模块。
特征分析AddModuleScore使用Seurat包的AddModuleScore函数,可以计算基因集在每个细胞中的打分- 简单易用,结果直观,可以调整画图样式- 可能受基因集大小和表达量影响

扰动(Perturbation analysis)分析

1. 扰动分析定义

扰动分析(Perturbation analysis)是指在单细胞转录组学中,通过人为定义或观测到的外部/内部条件差异(如疾病状态、药物处理、基因敲除/过表达、时间点等)作为扰动,评估细胞群体或特定细胞类型在这些条件下的转录响应差异与敏感性的一类分析方法。扰动分析的目标是识别在不同条件下最显著响应的细胞类型或基因模块,从而揭示潜在的生物学调控与功能差异。

查看更多内容(展开/收起)

2. 扰动分析的意义

  • 识别关键响应细胞类型:通过比较不同条件下的转录谱,找出对扰动最敏感的细胞类型,为后续功能验证提供目标。
  • 揭示条件特异性机制:识别在扰动下差异表达或活性改变的基因与通路,帮助理解分子调控机制。
  • 优先级排序与资源分配:在复杂的组织或多样的细胞群中,扰动分析可用于优先定位需要深入实验验证的细胞亚群,从而节省实验资源。
  • 指导干预策略与生物标志物发现:通过识别对治疗/处理敏感的细胞类型与基因,可为精准治疗与生物标志物开发提供依据。

3. 如何设置扰动因子与扰动对象

  • 扰动因子(Perturbation factor):通常对应于 Seurat/SingleCellExperiment 对象中 metadata 的一列,其取值用于定义不同实验条件或分组(例如 treatmentdisease_statustimepoint 等)。设置建议:

    • 确保该列包含清晰、互斥的分组标签,且至少包含两个不同水平(例如:处理 vs 对照、病人 vs 健康)。
    • 标签命名避免中文或特殊字符,推荐使用短英文或下划线连接的名称(如 treated, control, timepoint_0, timepoint_24h)。
    • 对于连续变量(如剂量、时间),可将其离散化为若干分组后再做比较,或使用专门支持连续扰动的分析方法。
  • 扰动对象(Perturbation objects):指在扰动因子下要比较的目标分组,可是整个样本集、指定的细胞类型、或更细的亚群(cluster/subcluster)。设置建议:

    • 至少选择两个扰动对象(例如:treated vs control),并确保每组中有足够细胞数以保证统计/机器学习方法的稳健性(建议每组>100个细胞,视方法而定)。
    • 当分析目标是细胞类型敏感性时,建议按细胞类型或子群逐个运行扰动分析,以获取每类细胞的响应优先级。
    • 对于存在批次效应或样本间差异的数据,需在设置时考虑批次作为协变量或在预处理阶段进行批次校正。

TIP

推荐流程:先在全数据或目标样本中确认扰动因子列与分组,然后在生物学相关且细胞数充足的细胞类型上逐个运行扰动分析,以获取稳健的细胞类型优先级排序。

CAUTION

  • 避免在细胞数极少的细胞类型上直接解读扰动结果;小样本会导致模型不稳定或过拟合。
  • 若扰动因子在 metadata 中包含缺失值或不平衡分布,应先进行数据清洗或考虑下采样/上采样策略。
  • 工具建议:可使用 Augur 对不同细胞类型进行优先级排序;同时建议和差异表达、调控网络、细胞通讯等方法结合,进行交叉验证以提高结果可信度。
0 条评论·0 条回复