Skip to content

云平台差异富集分析使用指南

作者: 高瑞峰
时长: 14 分钟
字数: 3.8k 字
更新: 2025-09-15
阅读: 0 次
云平台 使用说明 差异分析 富集分析

概述

什么是差异富集分析

差异富集分析旨在识别不同细胞群体或条件下显著差异表达的基因,并评估这些基因在功能/通路中的富集,通常分为两步:

  1. 差异表达分析:发现显著变化基因
  2. 功能富集分析:解释这些基因的功能与通路背景

NOTE

差异富集分析是单细胞解读的核心环节,务必结合生物学背景合理设置分组与阈值。

生物学意义

差异富集分析在单细胞研究中具有重要价值:

  • 细胞功能鉴定:通过差异基因识别细胞类型特异性标记基因,帮助理解不同细胞群体的功能特征
  • 生物学过程探索:通过功能富集分析揭示细胞在不同状态下的生物学过程变化
  • 疾病机制研究:比较健康与疾病状态下的基因表达差异,发现潜在的疾病相关通路
  • 药物靶点发现:识别药物处理前后差异表达的基因和通路,为药物开发提供线索

分析价值

通过差异富集分析,研究人员可以获得:

  • 细胞类型标记基因列表,用于细胞注释和功能鉴定
  • 活跃的生物学通路信息,揭示细胞功能状态
  • 潜在的调控机制,为后续实验提供方向
  • 生物学假设,指导深入的功能验证研究

使用说明

新建比较方案开始分析

点击页面右上角【新建方案】按钮,弹出比较方案窗口,再点击【新建方案】按钮,弹出新增比较方案窗口。新增比较方案主要包括三部分内容:"方案名称"、"细胞分组"和"比较组合"。

  1. "方案名称"应填写一个能够清晰反映比较情况、便于区分和查找的名称。
  2. "细胞分组"选择要分析的对象,可以选择聚类或细胞注释标签,也可以选择样本或样本分组标签,必选。如果没有合适的分组标签,可点击【分组】按钮新建分组标签,建好后即可在细胞分组下拉框中选择新建分组标签。
  3. "比较组合"选择要进行比较的对象,可以选择聚类或细胞注释标签,也可以选择样本或样本分组标签,非必选。如果比较组合数量超过5组,需要点击【展开】显示全部组合,最多可选择10组比较组合。"vs"前为实验组(比较组),后为对照组(被比较组),点击"vs"可调整比较组合顺序。

创建好比较方案,选择好差异分析和富集分析参数后,点击【保存】即可进行差异富集分析。

比较方案的含义

  1. "细胞分组"选择聚类或细胞注释标签,"比较组合"选择样本或样本分组标签,是2个样本之间同一种细胞类型进行比较。

  2. "细胞分组"选择样本或样本分组标签,"比较组合"选择聚类或细胞注释标签,是同一个样本的2种细胞类型进行比较。

  3. 只选择"细胞分组"不选择"比较组合",即可实现每一个细胞分组与其他细胞分组的比较,即1 vs 多。

比较方案的修改与删除

比较方案中记录着所有比较方案的详细信息,可点击【编辑】按钮对已有方案进行修改,或点击【删除】按钮对方案进行删除。操作完成后可点击背景或右上方的【关闭】按钮返回主界面。

差异表达分析

分析方法

参考:presto 官方文档Seurat FindMarkers

软件检验方法核心原理优点缺点适用场景与推荐
Prestowilcox非参数 Wilcoxon 秩和检验(高效实现,含 auROC 统计)- 面向大样本高效
- 内存友好
- 极端稀疏/强不平衡需配合降采样≥1,000 细胞/组的大样本;与 downSample、maxCell 搭配
FindMarkerswilcox非参数检验,比较两组分布中位数与秩次差异- 分布假设弱、稳健- 对极端不平衡/方差差异敏感默认首选,通用稳健
FindMarkersbimod对数正态的似然比检验- 贴合 log-normal 表达- 对分布假设敏感表达近似连续且接近对数正态
FindMarkersrocROC/auROC 基于可分性评估标志基因- 直观评估可分性- 不返回p值;解释偏向可分性标志物筛选、辅助评估
FindMarkerst学生 t 检验,比较两组均值- 简单快速- 需正态性与方差齐性;对离群点敏感近似正态、样本量适中
FindMarkersnegbinom负二项分布检验(计数、过度离散)- 适配 UMI 计数/过度离散- 计算较慢、参数估计复杂原始计数、离散度较高
FindMarkerspoisson泊松分布检验(稀疏计数)- 简单刻画稀疏计数- 忽略过度离散稀疏、近似泊松场景
FindMarkersLR似然比检验(嵌套模型比较)- 可纳入协变量- 模型设定要求高需要模型化与协变量时
FindMarkersMASTGLM 模型,考虑零膨胀特性- 适配零膨胀单细胞表达- 计算复杂、耗时存在大量零表达、需严谨建模

参数说明

  • 基因最低表达比例:设置基因在细胞中表达的最小比例阈值(默认0.1,即10%),表达该基因的细胞比例在任何一组中低于该阈值时,则该基因将不会列入差异基因列表。可以通过过滤低表达的基因加快分析速度。
  • 基因最低差异倍数:设置上下调差异倍数的最小绝对值(average Log2 fold change)。默认为0.25,表示仅保留cluster间表达差异倍数log2FC ≥ 0.25和log2FC ≤ -0.25的基因。可根据差异基因数量适当调整该阈值,增加基因最低差异倍数会加快分析速度,但可能会丢失部分基因。该值范围为大于0。
  • 显著性阈值方式(p 值/校正 p 值):设定判定基因表达差异是否显著的筛选阈值,默认p_val_adj < 0.05。若差异基因过多,可适当调低阈值,如0.01;若不以该条件筛选,请填写1。p_val_adj范围为[0,1]。
  • DownSample:是否进行细胞抽样,默认是。通过降低细胞数量加快分析速度。
  • 每个聚类最大细胞数:设置每个细胞群中最大细胞数。针对细胞抽样情况(即downSample等于是),细胞总数高于该阈值的细胞群,随机选择该阈值个细胞进行差异分析,细胞总数低于该阈值的细胞群,则使用所有的细胞进行差异分析。

功能富集分析

分析方法

参考:clusterProfiler 官方文档

方法函数核心输入输出/可视化适用场景
ORA(过度表示分析)clusterProfiler::enricher超几何/Fisher:评估差异基因中的过度表示差异基因列表 + TERM2GENE(GO/KEGG/Reactome/MSigDB)富集表;DotPlot、BarPlot已有差异基因集合,聚焦显著条目
GSEA(基因集富集分析)clusterProfiler::GSEAES/NES + 置换评估整体协调变化全量有序基因(如按 avg_log2FC)+ TERM2GENENES、p.adjust;ES 曲线;Dot/Bar信号弱或整体变化,避免硬阈值

数据库与数据集

  • 系统支持包括人、小鼠、大鼠、斑马鱼、果蝇、线虫、猫、狗、牛、鸡、马、猕猴、猪、鸭嘴兽、负鼠、绿安乐蜥、爪蟾、酵母、黑猩猩等上百个物种的数据库。可以参考我的数据库查看感兴趣的物种。
  • 数据库与数据集需根据物种和研究目的灵活选择,如功能注释优先GeneOntology,通路分析可选KEGG或Reactome。
数据库可选数据集
GeneOntologyMolecular Function(分子功能)、Biological Process(生物过程)、Cellular Components(细胞组分)
PathwayKEGG
MSigDBH(Hallmark)、C1(定位基因集)、C2(已知功能集)、C3(调控靶点集)、C4(计算预测集)、C5(本体集)、C6(致癌特征集)、C7(免疫特征集)、C8(细胞类型集)、H_C2_C5(H、C2、C5 联合库)
ReactomeReactome 通路库

参数说明

  • pvalueCutoff:判定富集显著性的p值阈值,通常需满足p < 0.05。
  • qvalueCutoff:校正后p值(FDR)的显著性阈值,通常需满足p < 0.05(大规模数据可降低qvalueCutoff至0.01))。
  • minGSSize:最小基因集大小(过滤过小基因集,降低假阳性),默认 10。
  • maxGSSize:最大基因集大小(过滤过大基因集,避免广谱功能干扰),默认 500。

结果解读

差异表达分析结果

顶部:通过左上角“分组/比较”与方案下拉框联动控制;柱状图中点击高亮单元可快速定位到右侧对应结果。

火山图

火山图是差异表达分析结果的重要可视化工具:

  • X轴:对数倍数变化(log2FC)
  • Y轴:-log10(p值)
  • 颜色
    • 红色:显著上调基因
    • 蓝色:显著下调基因
    • 灰色:无显著差异基因
  • 阈值线:垂直虚线表示倍数变化阈值,水平虚线表示显著性阈值

热图

热图显示差异基因在不同细胞群体中的表达模式:

  • :差异表达基因
  • :细胞群体
  • 颜色:基因表达水平(红色表示高表达,蓝色表示低表达)
  • 聚类:基因和细胞群体的聚类结果

小提琴图

小提琴图显示基因表达在不同细胞群体中的分布:

  • X轴:细胞群体
  • Y轴:基因表达水平
  • 形状:表达分布的密度曲线
  • 箱线图:中位数、四分位数等统计信息

底部:整体火山图与整体气泡图(随“分组/比较”视角切换做聚合展示)。

视角图片
分组
比较

富集分析结果

中部:

  • 左侧表格:差异分析和富集分析结果表格,支持搜索、筛选、排序;点击【分析参数】可修改检验方法/阈值并重算。点击下载可下载差异分析或富集分析的表格。
  • 右侧图区:富集 DotPlot、BarPlot、ES 图(按所选数据库与通路关注集展示)。

气泡图

气泡图是富集分析结果的主要可视化形式:

  • X轴:基因比例(GeneRatio)
  • Y轴:富集通路名称
  • 气泡大小:富集基因数量
  • 颜色:显著性水平(p值或q值)

条形图

条形图显示富集通路的排名和显著性:

  • X轴:富集评分或基因数量
  • Y轴:富集通路名称
  • 颜色:显著性水平
  • 排序:按富集程度或显著性排序

GSEA 富集评分图

GSEA结果包含富集评分图:

  • X轴:基因排序位置
  • Y轴:富集评分
  • 曲线:富集评分曲线
  • 垂直线:富集基因的位置
  • 热图:基因表达水平

TIP

差异富集结果可结合画图工具进一步可视化,便于结果解读和汇报。

总结

云平台差异富集分析工具提供了完整的分析流程,从差异表达分析到功能富集分析,帮助研究者深入理解单细胞数据的生物学意义。通过合理设置参数和正确解读结果,可以获得高质量的生物学发现。

常见问题解答

Q1:差异分析方法怎么选?

  • 默认使用 Wilcoxon(FindMarkers: wilcox),分布假设弱、通用稳健。
  • 样本量大(≥1,000/组)或性能要求高:优先 Presto(高效 Wilcoxon/auROC)。
  • 计数数据过度离散:考虑 negbinom
  • 零表达多、需建模:考虑 MAST
  • 近似正态、样本量适中:可用 t 检验
  • 需纳入协变量:用 LR(似然比)

Q2:差异基因太多/太少如何调整?

  • 太多:增大 logFC 阈值(如 0.25→0.5)、提高 min.pct(0.05→0.1)、收紧 p_val_adj(0.05→0.01)。
  • 太少:减小 logFC 阈值、降低 min.pct、放宽 p_val_adj(0.05→0.1 或 1)。
  • 大样本偏慢:开启 downSample,并设置 max.cells.per.ident(如 3,000–10,000)。

Q3:p 值还是校正 p 值?

  • 推荐优先使用 校正 p 值 p_val_adj ≤ 0.05;多组比较或通路众多时可更严格(≤0.01)。
  • 若仅做探索且希望不过滤,可临时将阈值设为 1。

Q4:ORA 和 GSEA 什么时候用?

  • 已有明确的差异基因集合、聚焦显著条目:用 ORA(enricher)
  • 整体信号弱或担心阈值筛选丢信息:用 GSEA(按全基因排序)
  • 数据库选择:功能注释优先 GO(BP/MF/CC);通路分析常用 KEGG/Reactome;也可选 MSigDB 子集。

Q5:运行很慢怎么办?

  • 选择 Presto;启用 downSample 并设置 max.cells.per.ident
  • 缩小数据库/通路集合范围;
  • 检查方案是否包含过多比较组合,必要时分批执行。

Q6:结果与预期不一致怎么排查?

  • 核对“分组/比较”是否选对标签与方向(vs 左侧为实验组)。
  • 查看是否开启抽样导致波动;调整阈值后重算对比。
  • 关注批次/个体差异,必要时改用更稳健方法或提高阈值。

Q7:富集数据库没找到对应物种?

  • 平台内置上百个个常见物种库;如未覆盖,请确认物种设置是否正确,或自行上传新建数据库,详细操作参考我的数据库

TIP

建议结合生物学背景合理设置参数,并在页面中使用“分析参数”进行重算与对比;解读页面提供的图表与结果。

参考文献

0 条评论·0 条回复