Skip to content

ATAC+RNA 多组学:质控指南与关键指标解读

作者: 舒梦
时长: 7 分钟
字数: 1.8k 字
更新: 2026-01-26
阅读: 0 次
ATAC+RNA 双组学 分析指南 数据整合

质控目的

剔除细胞碎片、双细胞、死细胞等异常 barcode,确保分析只包含高质量、真实的单细胞。

油滴包裹单细胞的正确状态

下图为理想情况:一个油滴只包裹一个完整细胞。但实际实验中也可能出现油滴包裹多个细胞(双胞,Doublet),或者油滴内包裹的是一些游离的细胞碎片。两者在质控中都应被去除。

图:正常油滴仅包裹单细胞

关键指标与建议

RNA 端质控

核心指标(阈值需按数据灵活调整):

  • 每个细胞检测到的基因数(nFeature_RNA):该指标太低提示是细胞碎片而非真实的细胞,该指标太高提示是双细胞,并非独立的单个细胞,常用阈值建议 200–6,000 (具体阈值可结合小提琴图适当调整)
  • 每个细胞总 UMI(nCount_RNA):反映每个细胞内所有转录本分子的总捕获量,通常与基因数协同变化。常用筛选范围为 500–10,000 (具体阈值可结合小提琴图适当调整)
  • 线粒体基因占比(percent.mt):该指标用于过滤可能的死细胞,线粒体占比高于 20% 或 25% 常提示细胞受到应激、破损或处于死亡状态。常用推荐阈值为 ≤10%–20%
r
# 计算线粒体基因百分比 (以人类基因为例,线粒体基因通常以 "MT-" 开头)
data[["percent.mt"]] <- PercentageFeatureSet(
  object = data,
  pattern = "^MT-"
)
r
# 绘制 RNA 端质控小提琴图 (nFeature_RNA, nCount_RNA, percent.mt)
VlnPlot(
  object = data,
  features = c("nFeature_RNA", "nCount_RNA", "percent.mt"),
  ncol = 3,
  pt.size = 0
)

小提琴图中离群点(如 nFeature_RNA 极低或极高,percent.mt 异常升高等)往往反映质量不佳的细胞,这些区域适合作为过滤阈值。建议结合经验推荐范围和小提琴图形态,灵活对阈值进行微调,以最大程度保留高质量细胞并去除噪音。

图: RNA QC (nFeature_RNA 等)

ATAC 端质控

建议评估以下指标:

  • TSS 富集分数(TSS.enrichment):衡量细胞染色体状体的一个指标。TSS 高富集状态提示染色质开放状态良好,通常对应细胞存活和转录稳态良好。TSS 富集分数过低常见于染色质降解、细胞死亡或技术噪音。可用 TSSEnrichment() 计算。常用阈值建议 ≥1–2 (推荐下限,具体阈值需结合小提琴图适当调整)
r
# 运行TSS富集分数计算
data <- TSSEnrichment(
 object = data,
 assay = "ATAC"
)

# 结果会被添加到 meta.data 的 TSS.enrichment 列
  • 核小体信号(nucleosome_signal):描述单核小体片段 (~147bp) 与无核小体片段 (<100bp) 的比例。优质细胞由于染色质结构完整,会在片段长度分布中呈现高低交替、约 200bp 除数的周期性波峰,反映细胞内核小体排列和染色质包装的生理状态。核小体信号异常升高提示细胞凋亡、降解或过多双胞等非生理状态。常用推荐阈值 ≤2,大于此值建议剔除
r
# 计算核小体信号 (nucleosome_signal)
data <- NucleosomeSignal(
  object = data,
  assay = "ATAC"
)

# 结果会被添加到 meta.data 的 nucleosome_signal 列
  • ATAC 片段总数(nCount_ATAC):该指标和上述的nCount_RNA类似,是从ATAC层面来过滤碎片或双细胞的,常见推荐范围为 1,000–80,000 (具体阈值需结合小提琴图适当调整)
r
# 绘制 ATAC 端质控小提琴图 (TSS.enrichment, nucleosome_signal, nCount_ATAC)
VlnPlot(
  object = data,
  features = c("TSS.enrichment", "nucleosome_signal", "nCount_ATAC"),
  ncol = 3,
  pt.size = 0
)

同样利用小提琴图帮助我们直观可视化ATAC层面各项 QC 指标的分布,辅助判断合理的过滤阈值,并发现异常或低质量细胞。

图:ATAC QC (nCount_ATAC 等)

常见问题

Q1:我用 Signac 官网教程处理 SeekArc 数据,教程里面有用到一个 singlecell.csv 文件,你们没提供这个文件给我呀?
A:老师用的应该是处理 scATAC-seq 单组学数据的教程,在单组学教程里面,singlecell.csv 文件是为了计算 pct_reads_in_peaks 指标,从而实现细胞过滤,Signac 有提供一胞双组学的指定教程 https://stuartlab.org/signac/articles/pbmc_multiomic,双组学数据过滤是不需要这个指标的,所以我们没有提供。

Q2:为什么在 Signac 多组学 (ATAC+RNA) 分析时,不用 pct_reads_in_peaks 指标来过滤细胞?
A:pct_reads_in_peaks (Peak 区 Reads 占比) 主要用于单组学 ATAC 质量控制,反映信噪比;单组学时没有其他数据支持,需要严格用它剔除低质量细胞。但在多组学数据中,RNA 信息可作为 ATAC 数据质控的互补。如果细胞的 RNA 数据表现好,即使 pct_reads_in_peaks 稍低也可能是生物学真实、有价值的细胞。部分亚型细胞天然 pct_reads_in_peaks 低,若强行筛选可能丢失关键信息。因此,Signac 在多组学中更关注 TSS.enrichment、nucleosome_signal 等稳健指标,通过 ATAC 与 RNA 交叉验证整体质量,无需强制用 pct_reads_in_peaks 过滤。

Q3:中性粒细胞会如何影响多组学数据的质控指标?
A

  1. 中性粒细胞被激活 (如受炎症刺激) 时,染色质会解聚并释放到细胞外,形成与组蛋白结合的“中性粒细胞胞外诱捕网” (NETs),以清除病原体。这类事件会产生大量、分布随机的小 DNA 片段,在测序数据中表现为:
  • TSS 富集度、overlap Peaks 等指标显著下降。
  • 染色体上这些碎片的占比可高达 60%,且大部分难以被归入 ATAC 调用的 Peak 区域。
  • 包含大量此状态中性粒的样本不适合做 scATAC-seq 测序。
  1. 未被激活、处于静息 (终末分化) 状态的中性粒细胞,尽管整体转录活性较低,但其染色质结构完整,各项常规质控指标 (如 TSS.enrichment、overlap Peaks 等) 通常处于正常范围,仅基因表达量 (nFeature_RNA、nCount_RNA) 与 ATAC 片段总量 (nCount_ATAC) 中位数相对较低。这属于生理现象,实际数据中也常见。
0 条评论·0 条回复