单细胞 scATAC-seq & scRNA-seq 双组学高级分析:AtaCNV 分析
前言
TIP
AtaCNV 是一种专为单细胞 ATAC-seq (scATAC-seq) 数据开发的拷贝数变异 (CNV) 检测工具。通过处理单细胞染色质可及性测序数据,AtaCNV 能够高分辨率地揭示肿瘤细胞等复杂组织内部的遗传异质性。
在单细胞多组学研究中,scATAC-seq 数据不仅提供了染色质开放状态的信息,还可以通过分析基因组区域的读段数量来推断拷贝数变异 (CNV)。AtaCNV 专为单细胞 ATAC-seq 数据开发,通过处理单细胞染色质可及性测序数据,能够高分辨率地揭示肿瘤细胞等复杂组织内部的遗传异质性。适用于多组学单细胞数据中的 scATAC-seq 通道,实现对肿瘤等复杂样本中细胞拷贝数状态的自动推断与可视化。
AtaCNV 的核心功能
恶性细胞识别 区分恶性细胞与非恶性细胞。AtaCNV 利用拷贝数比率数据,计算每个细胞群组的 CNV 负荷评分,并据此将高 CNV 负荷的群组归类为恶性细胞。
高分辨率 CNV 检测 以百万碱基对 (1 Mbp) 基因组片段为单位,提供高分辨率的 CNV 检测,能够精确定量每个细胞在全基因组范围内的拷贝数状态。
多种标准化模式 提供四种标准化模式,可根据数据特点选择合适的模式,包括匹配的正常样本、已知的正常细胞、所有细胞或自动识别模式。
数据平滑与去偏差 通过对每个细胞拟合一阶动态线性模型进行平滑处理,同时执行基于细胞的局部回归,消除 GC 含量可能引起的潜在偏差。
联合分段与拷贝数推断 应用多样本 BIC-seq 算法对所有单细胞进行联合分割,估算每个细胞所获片段的拷贝数比率,并通过贝叶斯方法推断离散拷贝数状态。
本篇文档旨在为单细胞多组学研究者提供一份详尽的 AtaCNV 技术指南,内容涵盖其基本原理、在 SeekSoul Online 云平台上的操作方法、结果解读及常见问题,帮助您快速掌握并应用该工具。
AtaCNV 理论基础
核心原理
AtaCNV 分析的核心思想是:利用 scATAC-seq 数据中比对到基因组区域的读段数量作为该区域 DNA 拷贝数的代理指标,通过数据平滑、标准化、联合分段和拷贝数推断等步骤,推断出每个细胞的拷贝数变异情况。
什么是 CNV
拷贝数变异 (Copy Number Variation, CNV) 是指基因组中较大 DNA 片段在数量上的结构变异,主要表现为染色体区域的扩增 (gain) 或缺失 (loss)。正常情况下,人类细胞为二倍体(每条常染色体通常有 2 个拷贝);当发生扩增时拷贝数超过 2,发生缺失时拷贝数低于 2。
CNV 是肿瘤等多种疾病发生和进展的重要驱动力。传统的 CNV 分析主要基于全基因组测序 (WGS) 或全外显子测序 (WES),只能提供群体平均水平的信息。单细胞 CNV 分析则在单细胞分辨率下推断每个细胞的拷贝数状态,能够揭示组织内部不同细胞的基因组差异与异质性。
单细胞多组学 CNV 分析的两个方向
单细胞多组学数据用于 CNV 分析主要有两个方向:
- 方向一:基于 scRNA-seq 数据 - 利用基因表达信息推断 CNV,主要工具为 infercnv
- 方向二:基于 scATAC-seq 数据 - 利用读段数量推断 CNV,主要工具包括 epiAneuFinder、AtaCNV、CopyscAT
TIP
主流单细胞 ATAC-seq CNV 分析工具简介
目前,常用于 scATAC-seq 数据 CNV 检测的工具有:epiAneuFinder、CopyscAT 和 AtaCNV。本指南聚焦 AtaCNV 的详细用法。如需使用其他工具,可参考相关文档获取更多信息。
关键算法与流程
AtaCNV 的分析流程可归纳为以下几个主要步骤:
输入与初步筛选:以百万碱基对 (1 Mbp) 基因组片段的单细胞读取计数矩阵作为输入,首先根据片段的可映射性和零值数量,对细胞和基因组片段进行筛选。
数据平滑与去偏差:为降低极端噪声,AtaCNV 通过对每个细胞拟合一阶动态线性模型,对计数矩阵进行平滑处理。同时执行基于细胞的局部回归,消除 GC 含量可能引起的潜在偏差。
标准化处理:
- 若存在正常细胞:将平滑后的计数数据与正常细胞数据进行标准化比较,从而从染色质可及性等混杂因素中解卷积出拷贝数信号。
- 若缺乏正常细胞:因肿瘤单细胞数据常包含大量非肿瘤细胞,AtaCNV 先对细胞进行聚类,识别出高置信度的正常细胞群组,并以其平滑深度数据为基准做标准化。
联合分段与拷贝数推断:AtaCNV 应用多样本 BIC-seq 算法对所有单细胞进行联合分割,估算每个细胞所获片段的拷贝数比率。
CNV 群组判别与进一步推断:利用拷贝数比率数据,计算每个细胞群组的 CNV 负荷评分,并据此将高 CNV 负荷的群组归类为恶性细胞。对于肿瘤细胞,AtaCNV 进一步通过贝叶斯方法推断其离散拷贝数状态。

适用场景与主要目的
适合的样本类型:
- 肿瘤组织样本(强烈推荐)- 包含大量 CNV 事件,可揭示肿瘤异质性和亚克隆结构
- 癌前病变或发育异常样本 - 可检测早期基因组结构变异
不适合的样本类型:
- 正常健康组织 - 大多数细胞为二倍体,缺乏显著的 CNV 事件,CNV 分析意义有限
单细胞 CNV 分析的主要目的:
- 恶性细胞识别 - 区分恶性细胞与非恶性细胞(恶性细胞通常表现出大范围的、非随机的 CNV 模式)
- 肿瘤异质性解析 - 识别具有不同 CNV 特征的亚克隆群体
- 克隆进化追踪 - 通过 CNV 模式相似性推断肿瘤的克隆进化关系
云平台操作指南
在云平台上,AtaCNV 分析流程被设计得直观易用。您无需编写代码,只需通过参数配置界面即可完成分析。

分析前的准备
TIP
AtaCNV 分析的成功与否,很大程度上取决于输入数据的质量和标准化模式的选择。在开始分析前,请务必确认:
- 数据已完成预处理:您的单细胞 ATAC 数据已经过标准的质控、降维、聚类和细胞类型注释。
- 样本类型合适:AtaCNV 主要适用于肿瘤组织样本,正常健康组织的 CNV 分析意义有限。
- 数据质量要求:确保 fragment 文件与细胞条形码对齐,并完成基础 QC。低质量的 ATAC 数据会导致 CNV 检测不准确。
- 标准化模式信息:如果有匹配的正常样本或已知的正常细胞信息,建议提前准备,以获得更准确的 CNV 检测结果。
参数详解
下表详细列出了云平台 AtaCNV 分析模块的主要参数及其说明。
| 参数名称 | 说明 |
|---|---|
| 任务名称 | 本次分析的任务名称,需以英文字母开头,可包含英文字母、数字、下划线和中文。 |
| sample_name | 样本名称,需填写具体的样本名。 |
| 物种 | 物种,仅限于 human 或 mouse。 |
| 分组因子 | 细胞注释结果,meta 中对应的列名,例如 CellAnotation。 |
| 聚类结果 | 聚类结果,meta 中对应的列名,如 wknn_res.0.5_d30_l2_50。 |
| mode | 分析模式,必填。可选 “normal cells”(参考正常细胞)、“all cells”(所有细胞)、“none”(无参考)。 |
| Non-TumorCells | 用于做参考的正常细胞类型。如果选择 mode 为“normal cells”,此处需填写分组因子中的一种细胞类型(如 T_cells);若 mode 为 “all cells” 或 “none”,则无需填写。 |
重要注意事项
TIP
- 标准化模式选择:AtaCNV 提供四种标准化模式。模式 1(匹配的正常样本)最可靠,当有匹配的非肿瘤样本时优先使用。模式 2(已知的正常细胞)当样本中的正常细胞已知时使用。模式 3(所有细胞)仅适用于肿瘤纯度较低的情况。模式 4(自动识别)当没有额外信息时使用,但准确性可能较低。
- 数据平滑:AtaCNV 会自动对数据进行平滑处理,以降低极端噪声,并消除 GC 含量可能引起的潜在偏差。
- 窗口大小:默认 1 Mbp 窗口大小适用于大多数情况,可根据数据特点调整。
- 样本类型:AtaCNV 主要适用于肿瘤组织样本,正常健康组织的 CNV 分析意义有限。
操作流程
- 进入分析模块:在云平台导航至“高级分析”模块,选择 "AtaCNV"。
- 创建新任务:为您的分析任务命名,并选择要分析的样本或项目。
- 配置参数:根据上述指南,选择要分析的细胞类型、分组信息、标准化模式等参数。
- 提交任务:确认参数无误后,点击“提交”按钮,等待分析完成。
- 查看结果:分析结束后,在任务列表中查看生成的分析报告和结果文件,包括 CNV 热图、拷贝数矩阵等。
结果解读
AtaCNV 的分析报告包含丰富的图表和数据文件,以下是对核心结果的详细解读。
拷贝数变异热图
拷贝数变异热图是 CNV 分析的核心可视化结果,全面展示了所有细胞在全基因组范围内的拷贝数状态:

图表解读
拷贝数变异热图中,每一行代表一个细胞,每一列代表基因组上的一个连续区间 (bin)。所有列按照染色体的物理位置顺序排列,从 1 号染色体依次到性染色体(若有)。每一列的颜色反映该区间在对应细胞中的拷贝数相对值:如红色表示拷贝数扩增 (gain),蓝色表示拷贝数缺失 (loss)。热图可见相邻染色体之间的列数可能显著不同(如有的 3 列,有的 4 列,有的只有 1 列),体现了染色体长度的细微差别。
分析要点
识别恶性细胞:通过观察 CNV 模式,可以区分恶性细胞与非恶性细胞。恶性细胞通常表现出大范围的、非随机的 CNV 模式,而非恶性细胞则保持相对正常的二倍体状态。
解析肿瘤异质性:不同细胞群体可能表现出不同的 CNV 特征,这些差异反映了肿瘤内部的细胞异质性和亚克隆结构。
高分辨率检测:AtaCNV 以 1 Mbp 为单位提供高分辨率的 CNV 检测,能够精确定量每个细胞在全基因组范围内的拷贝数状态。
结果文件列表
| 文件名 | 内容说明 |
|---|---|
copy_ratio.png | 拷贝数变异热图:展示所有细胞在全基因组范围内的拷贝数状态。 |
注意事项
1. 样本类型的重要性:AtaCNV 主要适用于肿瘤组织样本,正常健康组织的 CNV 分析意义有限。在进行 CNV 分析前,请确认样本类型是否适合。
2. 标准化模式的选择:AtaCNV 提供四种标准化模式,选择合适的模式对 CNV 检测的准确性至关重要。建议优先使用模式 1(匹配的正常样本)或模式 2(已知的正常细胞),以获得更准确的结果。
3. 数据质量要求:确保输入数据的质量满足要求,低质量的 ATAC 数据会导致 CNV 检测不准确。AtaCNV 会自动进行数据平滑和去偏差处理,但仍需要高质量的输入数据。
4. 窗口大小的选择:默认 1 Mbp 窗口大小适用于大多数情况,可根据数据特点调整。较小的窗口提供更高的分辨率,但需要更高的测序深度。
5. 结果解读需谨慎:CNV 检测结果需要结合生物学知识进行解读。某些技术因素(如测序深度、批次效应)可能会影响 CNV 检测的准确性。
6. 聚类信息的使用:如果没有预存在的聚类结果,AtaCNV 将基于计数矩阵自动进行聚类。如果已有聚类结果,建议提供以提高分析的准确性。
常见问题解答 (FAQ)
Q1:如何选择合适的标准化模式?
A:AtaCNV 提供了四种标准化模式,选择建议如下:
- 模式 1 (matched normal sample):最可靠,当有匹配的非肿瘤样本时优先使用
- 模式 2 (normal cells):当样本中的正常细胞已知时使用,可以通过 ArchR 等工具从 scATAC-seq 数据估计标记基因表达来初步识别正常细胞
- 模式 3 (all cells):仅适用于肿瘤纯度较低的情况,使用所有细胞构建基线
- 模式 4 (none):当没有额外信息时使用,AtaCNV 会自动识别最可能的正常细胞,但准确性可能较低
- 建议:如果可能,尽量使用模式 1 或模式 2,以获得更准确的 CNV 检测结果
Q2:如何解释拷贝状态结果中的数值?
A:在拷贝状态推断结果中:
- 0.5:表示拷贝数缺失 (loss),该区域在对应细胞中的拷贝数低于正常水平
- 1:表示拷贝数中性 (neutral),即正常的二倍体状态
- 1.5:表示拷贝数扩增 (gain),该区域在对应细胞中的拷贝数高于正常水平
- 这些数值反映了每个细胞在每个基因组区间 (bin) 的拷贝数状态,可以用于识别恶性细胞和亚克隆结构
Q3:AtaCNV 与其他 CNV 检测工具相比有什么优势?
A:AtaCNV 的主要优势包括:
- 专为 scATAC-seq 设计:充分利用了 scATAC-seq 数据的特性,直接从染色质可及性数据推断 CNV
- 高分辨率检测:以 1 Mbp 为单位提供高分辨率的 CNV 检测
- 数据平滑与去偏差:自动进行数据平滑处理,并消除 GC 含量可能引起的潜在偏差
- 多种标准化模式:提供四种标准化模式,可根据数据特点灵活选择
- 联合分段算法:应用多样本 BIC-seq 算法对所有单细胞进行联合分割,提高检测准确性
Q4:如何理解 CNV 负荷评分?
A:CNV 负荷评分是 AtaCNV 用于识别恶性细胞的重要指标:
- 高 CNV 负荷:表示该细胞群组具有大量的 CNV 事件,通常被归类为恶性细胞
- 低 CNV 负荷:表示该细胞群组具有较少的 CNV 事件,通常被归类为非恶性细胞
- CNV 负荷评分基于拷贝数比率数据计算,是区分恶性细胞与非恶性细胞的关键指标
Q5:如果没有匹配的正常样本,应该使用哪种标准化模式?
A:如果没有匹配的正常样本,可以按以下优先级选择:
- 模式 2(已知的正常细胞):如果能够通过其他方法(如 ArchR 等工具)识别出正常细胞,优先使用此模式
- 模式 4(自动识别):如果没有额外信息,可以使用此模式,AtaCNV 会自动识别最可能的正常细胞
- 模式 3(所有细胞):仅适用于肿瘤纯度较低 (<50%) 的情况,一般不推荐使用
Q6:AtaCNV 可以检测哪些类型的 CNV?
A:AtaCNV 能够检测多种类型的 CNV:
- 染色体臂水平 CNV:大范围的染色体扩增或缺失
- 片段水平 CNV:中等大小的基因组片段扩增或缺失
- 局部 CNV:小范围的基因组区域扩增或缺失
- 通过 1 Mbp 窗口的分辨率,AtaCNV 能够检测从局部到染色体臂水平的各种 CNV 事件
参考资料
[1] WANG X, et al. Detecting copy-number alterations from single-cell chromatin sequencing data by AtaCNV[J]. Cell Reports Methods, 2025, 5(1).
