Skip to content

单细胞 scATAC-seq & scRNA-seq 双组学高级分析:CopyscAT 分析

作者: SeekGene
时长: 15 分钟
字数: 4.1k 字
更新: 2026-01-21
阅读: 0 次
SeekSoul Online

前言

TIP

CopyscAT 可基于 scATAC-seq 数据推断拷贝数变异(CNV),辅助识别癌症细胞。它能帮助研究复杂肿瘤(如胶质母细胞瘤)内不同亚克隆的染色体变化与表观基因组状态的关系,分析遗传变异如何影响细胞的分子表型。

在单细胞多组学研究中,scATAC-seq 数据不仅提供了染色质开放状态的信息,还可以通过分析基因组区域的读段数量来推断拷贝数变异(CNV)。CopyscAT 使用单细胞表观基因组数据来推断拷贝数变异(CNV),从而定义和识别癌症细胞。该工具的核心原理是利用 scATAC-seq 数据中比对到基因组区域的读段数量作为该区域 DNA 拷贝数的代理指标。

CopyscAT 的核心功能

  1. 恶性细胞识别
    区分恶性细胞与非恶性细胞。CopyscAT 的一个关键优势是能够自动识别非肿瘤细胞并使用它们作为对照,从而更准确地检测肿瘤细胞中的 CNV。

  2. 多层次 CNV 检测
    能够检测局部 CNV(如 ecDNA,即染色体外 DNA)、片段水平 CNV 和染色体臂水平 CNV,全面解析肿瘤的基因组结构变异。

  3. 肿瘤异质性解析
    识别具有不同 CNV 特征的亚克隆群体,特别适合处理具有高水平肿瘤内异质性的复杂样本,如胶质母细胞瘤。

本篇文档旨在为单细胞多组学研究者提供一份详尽的 CopyscAT 技术指南,内容涵盖其基本原理、在 SeekSoulOnline 云平台上的操作方法、结果解读及常见问题,帮助您快速掌握并应用该工具。

CopyscAT 理论基础

核心原理

CopyscAT 分析的核心思想是:利用 scATAC-seq 数据中比对到基因组区域的读段数量作为该区域 DNA 拷贝数的代理指标,通过数据标准化、CNV 检测和细胞分配等步骤,推断出每个细胞的拷贝数变异情况。

什么是 CNV?

拷贝数变异(Copy Number Variation,CNV) 是指基因组中较大 DNA 片段在数量上的结构变异,主要表现为染色体区域的扩增(gain)或缺失(loss)。正常情况下,人类细胞为二倍体(每条常染色体通常有 2 个拷贝);当发生扩增时拷贝数超过 2,发生缺失时拷贝数低于 2。

CNV 是肿瘤等多种疾病发生和进展的重要驱动力。传统的 CNV 分析主要基于全基因组测序(WGS)或全外显子测序(WES),只能提供群体平均水平的信息。单细胞 CNV 分析则在单细胞分辨率下推断每个细胞的拷贝数状态,能够揭示组织内部不同细胞的基因组差异与异质性。

单细胞多组学 CNV 分析的两个方向

单细胞多组学数据用于 CNV 分析主要有两个方向:

  • 方向一:基于 scRNA-seq 数据 - 利用基因表达信息推断 CNV,主要工具为 infercnv
  • 方向二:基于 scATAC-seq 数据 - 利用读段数量推断 CNV,主要工具包括 epiAneuFinderAtaCNVCopyscAT

TIP

主流单细胞 ATAC-seq CNV 分析工具简介

目前,常用于 scATAC-seq 数据 CNV 检测的工具有:epiAneuFinder、CopyscAT 和 AtaCNV。本指南聚焦 CopyscAT 的详细用法。如需使用其他工具,可参考相关文档获取更多信息。

关键算法与流程

CopyscAT 的分析流程包括以下关键步骤:

  1. 数据输入:接受由 seekARC 生成的 barcode-fragment 矩阵作为输入。
  2. 数据标准化:对覆盖度矩阵进行标准化处理,生成标准化矩阵。
  3. CNV 检测
    • 局部 CNV 检测:通过标准化覆盖度矩阵中的大峰值推断局部 CNV(如 ecDNA,即染色体外 DNA)。
    • 片段和染色体臂水平 CNV 检测:使用标准化矩阵推断片段水平和染色体臂水平的 CNV。
    • 双分钟(double minutes)检测:识别基因组中的高拷贝数扩增区域。
  4. 细胞分配:使用共识聚类(consensus clustering)方法最终确定细胞的分组和 CNV 状态。

CopyscAT 的一个关键优势是能够自动识别非肿瘤细胞并使用它们作为对照,从而更准确地检测肿瘤细胞中的 CNV。该工具特别适合处理具有高水平肿瘤内异质性的复杂样本。

适用场景与主要目的

适合的样本类型:

  • 肿瘤组织样本(强烈推荐)- 包含大量 CNV 事件,可揭示肿瘤异质性和亚克隆结构。
  • 癌前病变或发育异常样本 - 可检测早期基因组结构变异。

不适合的样本类型:

  • 正常健康组织 - 大多数细胞为二倍体,缺乏显著的 CNV 事件,CNV 分析意义有限。

单细胞 CNV 分析的主要目的:

  1. 恶性细胞识别 - 区分恶性细胞与非恶性细胞(恶性细胞通常表现出大范围的、非随机的 CNV 模式)。
  2. 肿瘤异质性解析 - 识别具有不同 CNV 特征的亚克隆群体。
  3. 克隆进化追踪 - 通过 CNV 模式相似性推断肿瘤的克隆进化关系。

云平台操作指南

在云平台上,CopyscAT 分析流程被设计得直观易用。您无需编写代码,只需通过参数配置界面即可完成分析。

分析前的准备

TIP

CopyscAT 分析的成功与否,很大程度上取决于输入数据的质量和样本类型。在开始分析前,请务必确认:

  1. 数据已完成预处理:您的单细胞 ATAC 数据已经过标准的质控、降维、聚类和细胞类型注释。
  2. 样本类型合适:CopyscAT 主要适用于肿瘤组织样本,正常健康组织的 CNV 分析意义有限。
  3. 数据质量要求:确保 fragment 文件与细胞条形码对齐,并完成基础 QC。低质量的 ATAC 数据会导致 CNV 检测不准确。

参数详解

下表详细列出了云平台 CopyscAT 分析模块的主要参数及其说明。

参数名称说明
任务名称本次分析的任务名称,需以英文字母开头,可包含英文字母、数字、下划线和中文。
分组因子细胞注释的结果,meta数据的列名,如CellAnotation。用于可视化细胞亚群。
group_col样本分组,meta的列名,如Group。用于分析分组。
物种物种,仅限于 human 或 mouse。只可填写humanmouse
聚类结果聚类结果,meta的列名(示例:wknn_res.0.5_d30_l2_50)。用于细胞分群。
sample_name样本名称,meta的列名,如Sample
reduction降维方式,包含umap/tsne/lsi/atacumap/atactsne/wnnumap/wnntsne,用于FeaturePlot展示不同细胞簇CNV分布。
分析方法选择分析方式,包括autoreferencereference表示以正常细胞作为参考计算CNV,auto则不需要参考细胞。
Non-TumorCells分析方法选择reference时,需指定用于参考的正常细胞类型(如B细胞、T细胞等,建议优先选用免疫细胞)。
minimumSegments最小片段数:细胞过滤阈值,默认保留片段数≥40的细胞。

重要注意事项

TIP

  • CNV 检测策略选择:CopyscAT 提供两种 CNV 检测策略。选项 1(使用所有细胞生成对照)适用于大多数情况,特别是当样本中肿瘤细胞占比较高时。选项 2(自动识别非肿瘤细胞作为对照)适用于肿瘤纯度较低 (< 90%) 的样本,能够更准确地设置基线,但如果非肿瘤细胞群体非常小,可能会被遗漏。
  • 窗口大小选择:窗口大小的选择需要平衡分辨率和统计功效。默认 1 Mb 适用于大多数情况,可根据数据特点调整。
  • 黑名单区域:强烈建议使用 ENCODE 黑名单区域文件,以排除具有系统性比对偏差的基因组位点。
  • 样本类型:CopyscAT 主要适用于肿瘤组织样本,正常健康组织的 CNV 分析意义有限。

操作流程

  1. 进入分析模块:在云平台导航至“高级分析”模块,选择“CopyscAT”。
  2. 创建新任务:为您的分析任务命名,并选择要分析的样本或项目。
  3. 配置参数:根据上述指南,选择要分析的细胞类型、分组信息、CNV 检测策略等参数。
  4. 提交任务:确认参数无误后,点击“提交”按钮,等待分析完成。
  5. 查看结果:分析结束后,在任务列表中查看生成的分析报告和结果文件,包括 CNV 热图、拷贝数矩阵等。

结果解读

CopyscAT 的分析报告包含丰富的图表和数据文件,以下是对核心结果的详细解读。

拷贝数变异热图

拷贝数变异热图是 CNV 分析的核心可视化结果,全面展示了所有细胞在全基因组范围内的拷贝数状态:

图表解读

  • 行与列的含义

    • 每一行代表一个细胞
    • 每一列代表一个染色体臂,热图的颜色表示 CNV 分数
    • 列的顺序对应基因组从 1 号染色体到性染色体(若保留)的线性排列
  • 颜色映射

    • copy number 值在 2 附近,表示正常的二倍体状态
    • copy number 在 1~2 之间,表示染色质存在缺失,越靠近 1,表示缺失越严重
    • copy number 在 2~3 之间,表示染色质存在扩增,越靠近 3 表示扩增越严重
    • 颜色越红表示扩增越严重,颜色越蓝表示缺失越严重
  • 细胞注释

    • 热图左侧色带分别表示将细胞按照细胞类型和细胞聚类情况进行排列
    • CopyscAT 使用共识聚类方法最终确定细胞的 CNV 状态和分组
    • 恶性细胞通常表现出明显的 CNV 模式(大范围的扩增或缺失),而非恶性细胞(如 T 细胞、B 细胞)则保持相对正常的二倍体状态

分析要点

  1. 识别恶性细胞:通过观察 CNV 模式,可以区分恶性细胞与非恶性细胞。恶性细胞通常表现出大范围的、非随机的 CNV 模式,而非恶性细胞则保持相对正常的二倍体状态。

  2. 解析肿瘤异质性:不同细胞群体可能表现出不同的 CNV 特征,这些差异反映了肿瘤内部的细胞异质性和亚克隆结构。CopyscAT 特别适合处理具有高水平肿瘤内异质性的复杂样本。

  3. 多层次 CNV 检测:CopyscAT 能够检测局部 CNV(如 ecDNA)、片段水平 CNV 和染色体臂水平 CNV,提供全面的基因组结构变异信息。

结果文件列表

文件/目录内容说明
cnv_plots/chr*_umap.pdf每条染色体臂的CNV变异可视化(*为染色体编号)。
cnv_heatmap_annotated.pdf拷贝数变异热图展示,含细胞注释。

注意事项

1. 样本类型的重要性:CopyscAT 主要适用于肿瘤组织样本,正常健康组织的 CNV 分析意义有限。在进行 CNV 分析前,请确认样本类型是否适合。

2. CNV 检测策略的选择:CopyscAT 提供两种 CNV 检测策略。选项1 适用于大多数情况,选项2 适用于肿瘤纯度较低(<90%)的样本。建议先用选项1 运行,如果结果不理想再尝试选项2。

3. 参数选择的影响:窗口大小、过滤阈值等参数的选择会显著影响 CNV 检测结果。建议先用默认参数运行,然后根据结果质量进行适当调整。

4. 黑名单区域的使用:强烈建议使用 ENCODE 黑名单区域文件,以排除具有系统性比对偏差的基因组位点,避免干扰拷贝数推断。

5. 结果解读需谨慎:CNV 检测结果需要结合生物学知识进行解读。某些技术因素(如测序深度、批次效应)可能会影响 CNV 检测的准确性。

6. 大样本数据处理:对于非常大的数据集,可以对数据进行子集抽样,或在不同细胞群体上分别运行分析,然后合并结果。

常见问题解答 (FAQ)

Q1:如何选择合适的 CNV 检测策略?

A:CopyscAT 提供两种 CNV 检测策略:

  • 选项1:使用所有细胞生成对照。适用于大多数情况,特别是当样本中肿瘤细胞占比较高时。
  • 选项2:自动识别非肿瘤细胞作为对照。适用于肿瘤纯度较低(<90%)的样本,能够更准确地设置基线。但需要注意的是,如果非肿瘤细胞群体非常小,可能会被遗漏。

Q2:如何解释拷贝数结果中的数值?

A:在拷贝数推断结果中:

  • 接近 2:表示拷贝数正常(二倍体状态),即该区域在对应细胞中保持正常的拷贝数。
  • 1~2 之间:表示拷贝数缺失(loss),该区域在对应细胞中的拷贝数低于正常水平,越接近 1 表示缺失越严重。
  • 2~3 之间:表示拷贝数扩增(gain),该区域在对应细胞中的拷贝数高于正常水平,越接近 3 表示扩增越严重。
  • 这些数值反映了每个细胞在每个基因组窗口的拷贝数状态,可以用于识别恶性细胞和亚克隆结构。

Q3:如何调整 NMF 聚类的参数?

A:当使用选项2(自动识别非肿瘤细胞)时,如果结果不理想,可以调整以下参数:

  • cutHeight:切割树状图的高度,默认 0.4。如果聚类分离不好,可以降低该值。
  • nmfComponents:NMF 组件数量,默认 5。可以根据样本复杂度调整。
  • estimatedCellularity:估计的肿瘤细胞比例,默认 0.8。如果已知样本的肿瘤纯度,可以调整此参数。

Q4:CopyscAT 与其他 CNV 检测工具相比有什么优势?

A:CopyscAT 的主要优势包括:

  • 自动识别正常细胞:能够自动识别样本中的非肿瘤细胞并用作对照,提高 CNV 检测的准确性。
  • 多层次 CNV 检测:能够检测局部 CNV(如 ecDNA)、片段水平 CNV 和染色体臂水平 CNV。
  • 双分钟检测:能够识别基因组中的高拷贝数扩增区域(double minutes)。
  • 细胞周期分析:提供细胞周期分数估计功能,有助于理解细胞状态。
  • 适合复杂肿瘤:特别适合处理具有高水平肿瘤内异质性的复杂样本,如胶质母细胞瘤。

Q5:如何处理大样本数据?

A:对于非常大的数据集:

  • 可以对数据进行子集抽样(如使用 subsetSize 参数)。
  • 可以在不同细胞群体上分别运行分析,然后合并结果。
  • 对于双分钟检测等耗时步骤,可以考虑只对特定细胞群体运行。

Q6:CopyscAT 可以检测哪些类型的 CNV?

A:CopyscAT 能够检测多种类型的 CNV:

  • 局部 CNV:如 ecDNA(染色体外 DNA),通过标准化覆盖度矩阵中的大峰值推断。
  • 片段水平 CNV:使用标准化矩阵推断片段水平的 CNV。
  • 染色体臂水平 CNV:使用标准化矩阵推断染色体臂水平的 CNV。
  • 双分钟(double minutes):识别基因组中的高拷贝数扩增区域。

参考资料

[1] NIKOLIC A, SINGHAL D, ELLESTAD K, et al. Copy-scAT: Deconvoluting single-cell chromatin accessibility of genetic subclones in cancer[J]. Science advances, 2021, 7(42): eabg6045.

0 条评论·0 条回复