单细胞 scATAC-seq & scRNA-seq 双组学高级分析：AtaCNV 分析

作者: SeekGene

时长: 15 分钟

字数: 4.3k 字

更新: 2026-01-21

阅读: 0 次

SeekSoul Online

前言

TIP

AtaCNV 是一种专为单细胞 ATAC-seq (scATAC-seq) 数据开发的拷贝数变异 (CNV) 检测工具。通过处理单细胞染色质可及性测序数据，AtaCNV 能够高分辨率地揭示肿瘤细胞等复杂组织内部的遗传异质性。

在单细胞多组学研究中，scATAC-seq 数据不仅提供了染色质开放状态的信息，还可以通过分析基因组区域的读段数量来推断拷贝数变异 (CNV)。AtaCNV 专为单细胞 ATAC-seq 数据开发，通过处理单细胞染色质可及性测序数据，能够高分辨率地揭示肿瘤细胞等复杂组织内部的遗传异质性。适用于多组学单细胞数据中的 scATAC-seq 通道，实现对肿瘤等复杂样本中细胞拷贝数状态的自动推断与可视化。

AtaCNV 的核心功能

恶性细胞识别 区分恶性细胞与非恶性细胞。AtaCNV 利用拷贝数比率数据，计算每个细胞群组的 CNV 负荷评分，并据此将高 CNV 负荷的群组归类为恶性细胞。
高分辨率 CNV 检测 以百万碱基对 (1 Mbp) 基因组片段为单位，提供高分辨率的 CNV 检测，能够精确定量每个细胞在全基因组范围内的拷贝数状态。
多种标准化模式 提供四种标准化模式，可根据数据特点选择合适的模式，包括匹配的正常样本、已知的正常细胞、所有细胞或自动识别模式。
数据平滑与去偏差 通过对每个细胞拟合一阶动态线性模型进行平滑处理，同时执行基于细胞的局部回归，消除 GC 含量可能引起的潜在偏差。
联合分段与拷贝数推断 应用多样本 BIC-seq 算法对所有单细胞进行联合分割，估算每个细胞所获片段的拷贝数比率，并通过贝叶斯方法推断离散拷贝数状态。

本篇文档旨在为单细胞多组学研究者提供一份详尽的 AtaCNV 技术指南，内容涵盖其基本原理、在 SeekSoul Online 云平台上的操作方法、结果解读及常见问题，帮助您快速掌握并应用该工具。

AtaCNV 理论基础

核心原理

AtaCNV 分析的核心思想是：利用 scATAC-seq 数据中比对到基因组区域的读段数量作为该区域 DNA 拷贝数的代理指标，通过数据平滑、标准化、联合分段和拷贝数推断等步骤，推断出每个细胞的拷贝数变异情况。

什么是 CNV

拷贝数变异 (Copy Number Variation, CNV) 是指基因组中较大 DNA 片段在数量上的结构变异，主要表现为染色体区域的扩增 (gain) 或缺失 (loss)。正常情况下，人类细胞为二倍体（每条常染色体通常有 2 个拷贝）；当发生扩增时拷贝数超过 2，发生缺失时拷贝数低于 2。

CNV 是肿瘤等多种疾病发生和进展的重要驱动力。传统的 CNV 分析主要基于全基因组测序 (WGS) 或全外显子测序 (WES)，只能提供群体平均水平的信息。单细胞 CNV 分析则在单细胞分辨率下推断每个细胞的拷贝数状态，能够揭示组织内部不同细胞的基因组差异与异质性。

单细胞多组学 CNV 分析的两个方向

单细胞多组学数据用于 CNV 分析主要有两个方向：

方向一：基于 scRNA-seq 数据 - 利用基因表达信息推断 CNV，主要工具为 infercnv
方向二：基于 scATAC-seq 数据 - 利用读段数量推断 CNV，主要工具包括 epiAneuFinder、AtaCNV、CopyscAT

TIP

主流单细胞 ATAC-seq CNV 分析工具简介

目前，常用于 scATAC-seq 数据 CNV 检测的工具有：epiAneuFinder、CopyscAT 和 AtaCNV。本指南聚焦 AtaCNV 的详细用法。如需使用其他工具，可参考相关文档获取更多信息。

关键算法与流程

AtaCNV 的分析流程可归纳为以下几个主要步骤：

输入与初步筛选：以百万碱基对 (1 Mbp) 基因组片段的单细胞读取计数矩阵作为输入，首先根据片段的可映射性和零值数量，对细胞和基因组片段进行筛选。
数据平滑与去偏差：为降低极端噪声，AtaCNV 通过对每个细胞拟合一阶动态线性模型，对计数矩阵进行平滑处理。同时执行基于细胞的局部回归，消除 GC 含量可能引起的潜在偏差。
标准化处理：
- 若存在正常细胞：将平滑后的计数数据与正常细胞数据进行标准化比较，从而从染色质可及性等混杂因素中解卷积出拷贝数信号。
- 若缺乏正常细胞：因肿瘤单细胞数据常包含大量非肿瘤细胞，AtaCNV 先对细胞进行聚类，识别出高置信度的正常细胞群组，并以其平滑深度数据为基准做标准化。
联合分段与拷贝数推断：AtaCNV 应用多样本 BIC-seq 算法对所有单细胞进行联合分割，估算每个细胞所获片段的拷贝数比率。
CNV 群组判别与进一步推断：利用拷贝数比率数据，计算每个细胞群组的 CNV 负荷评分，并据此将高 CNV 负荷的群组归类为恶性细胞。对于肿瘤细胞，AtaCNV 进一步通过贝叶斯方法推断其离散拷贝数状态。

适用场景与主要目的

适合的样本类型：

肿瘤组织样本（强烈推荐）- 包含大量 CNV 事件，可揭示肿瘤异质性和亚克隆结构
癌前病变或发育异常样本 - 可检测早期基因组结构变异

不适合的样本类型：

正常健康组织 - 大多数细胞为二倍体，缺乏显著的 CNV 事件，CNV 分析意义有限

单细胞 CNV 分析的主要目的：

恶性细胞识别 - 区分恶性细胞与非恶性细胞（恶性细胞通常表现出大范围的、非随机的 CNV 模式）
肿瘤异质性解析 - 识别具有不同 CNV 特征的亚克隆群体
克隆进化追踪 - 通过 CNV 模式相似性推断肿瘤的克隆进化关系

云平台操作指南

在云平台上，AtaCNV 分析流程被设计得直观易用。您无需编写代码，只需通过参数配置界面即可完成分析。

分析前的准备

TIP

AtaCNV 分析的成功与否，很大程度上取决于输入数据的质量和标准化模式的选择。在开始分析前，请务必确认：

数据已完成预处理：您的单细胞 ATAC 数据已经过标准的质控、降维、聚类和细胞类型注释。
样本类型合适：AtaCNV 主要适用于肿瘤组织样本，正常健康组织的 CNV 分析意义有限。
数据质量要求：确保 fragment 文件与细胞条形码对齐，并完成基础 QC。低质量的 ATAC 数据会导致 CNV 检测不准确。
标准化模式信息：如果有匹配的正常样本或已知的正常细胞信息，建议提前准备，以获得更准确的 CNV 检测结果。

参数详解

下表详细列出了云平台 AtaCNV 分析模块的主要参数及其说明。

参数名称	说明
任务名称	本次分析的任务名称，需以英文字母开头，可包含英文字母、数字、下划线和中文。
sample_name	样本名称，需填写具体的样本名。
物种	物种，仅限于 human 或 mouse。
分组因子	细胞注释结果，meta 中对应的列名，例如 CellAnotation。
聚类结果	聚类结果，meta 中对应的列名，如 wknn_res.0.5_d30_l2_50。
mode	分析模式，必填。可选 “normal cells”（参考正常细胞）、“all cells”（所有细胞）、“none”（无参考）。
Non-TumorCells	用于做参考的正常细胞类型。如果选择 mode 为“normal cells”，此处需填写分组因子中的一种细胞类型（如 T_cells）；若 mode 为 “all cells” 或 “none”，则无需填写。

重要注意事项

TIP

标准化模式选择：AtaCNV 提供四种标准化模式。模式 1（匹配的正常样本）最可靠，当有匹配的非肿瘤样本时优先使用。模式 2（已知的正常细胞）当样本中的正常细胞已知时使用。模式 3（所有细胞）仅适用于肿瘤纯度较低的情况。模式 4（自动识别）当没有额外信息时使用，但准确性可能较低。
数据平滑：AtaCNV 会自动对数据进行平滑处理，以降低极端噪声，并消除 GC 含量可能引起的潜在偏差。
窗口大小：默认 1 Mbp 窗口大小适用于大多数情况，可根据数据特点调整。
样本类型：AtaCNV 主要适用于肿瘤组织样本，正常健康组织的 CNV 分析意义有限。

操作流程

进入分析模块：在云平台导航至“高级分析”模块，选择 "AtaCNV"。
创建新任务：为您的分析任务命名，并选择要分析的样本或项目。
配置参数：根据上述指南，选择要分析的细胞类型、分组信息、标准化模式等参数。
提交任务：确认参数无误后，点击“提交”按钮，等待分析完成。
查看结果：分析结束后，在任务列表中查看生成的分析报告和结果文件，包括 CNV 热图、拷贝数矩阵等。

结果解读

AtaCNV 的分析报告包含丰富的图表和数据文件，以下是对核心结果的详细解读。

拷贝数变异热图

拷贝数变异热图是 CNV 分析的核心可视化结果，全面展示了所有细胞在全基因组范围内的拷贝数状态：

图表解读

拷贝数变异热图中，每一行代表一个细胞，每一列代表基因组上的一个连续区间 (bin)。所有列按照染色体的物理位置顺序排列，从 1 号染色体依次到性染色体（若有）。每一列的颜色反映该区间在对应细胞中的拷贝数相对值：如红色表示拷贝数扩增 (gain)，蓝色表示拷贝数缺失 (loss)。热图可见相邻染色体之间的列数可能显著不同（如有的 3 列，有的 4 列，有的只有 1 列），体现了染色体长度的细微差别。

分析要点

识别恶性细胞：通过观察 CNV 模式，可以区分恶性细胞与非恶性细胞。恶性细胞通常表现出大范围的、非随机的 CNV 模式，而非恶性细胞则保持相对正常的二倍体状态。
解析肿瘤异质性：不同细胞群体可能表现出不同的 CNV 特征，这些差异反映了肿瘤内部的细胞异质性和亚克隆结构。
高分辨率检测：AtaCNV 以 1 Mbp 为单位提供高分辨率的 CNV 检测，能够精确定量每个细胞在全基因组范围内的拷贝数状态。

结果文件列表

文件名	内容说明
`copy_ratio.png`	拷贝数变异热图：展示所有细胞在全基因组范围内的拷贝数状态。

注意事项

1. 样本类型的重要性：AtaCNV 主要适用于肿瘤组织样本，正常健康组织的 CNV 分析意义有限。在进行 CNV 分析前，请确认样本类型是否适合。

2. 标准化模式的选择：AtaCNV 提供四种标准化模式，选择合适的模式对 CNV 检测的准确性至关重要。建议优先使用模式 1（匹配的正常样本）或模式 2（已知的正常细胞），以获得更准确的结果。

3. 数据质量要求：确保输入数据的质量满足要求，低质量的 ATAC 数据会导致 CNV 检测不准确。AtaCNV 会自动进行数据平滑和去偏差处理，但仍需要高质量的输入数据。

4. 窗口大小的选择：默认 1 Mbp 窗口大小适用于大多数情况，可根据数据特点调整。较小的窗口提供更高的分辨率，但需要更高的测序深度。

5. 结果解读需谨慎：CNV 检测结果需要结合生物学知识进行解读。某些技术因素（如测序深度、批次效应）可能会影响 CNV 检测的准确性。

6. 聚类信息的使用：如果没有预存在的聚类结果，AtaCNV 将基于计数矩阵自动进行聚类。如果已有聚类结果，建议提供以提高分析的准确性。

常见问题解答 (FAQ)

Q1：如何选择合适的标准化模式？

A：AtaCNV 提供了四种标准化模式，选择建议如下：

模式 1 (matched normal sample)：最可靠，当有匹配的非肿瘤样本时优先使用
模式 2 (normal cells)：当样本中的正常细胞已知时使用，可以通过 ArchR 等工具从 scATAC-seq 数据估计标记基因表达来初步识别正常细胞
模式 3 (all cells)：仅适用于肿瘤纯度较低的情况，使用所有细胞构建基线
模式 4 (none)：当没有额外信息时使用，AtaCNV 会自动识别最可能的正常细胞，但准确性可能较低
建议：如果可能，尽量使用模式 1 或模式 2，以获得更准确的 CNV 检测结果

Q2：如何解释拷贝状态结果中的数值？

A：在拷贝状态推断结果中：

0.5：表示拷贝数缺失 (loss)，该区域在对应细胞中的拷贝数低于正常水平
1：表示拷贝数中性 (neutral)，即正常的二倍体状态
1.5：表示拷贝数扩增 (gain)，该区域在对应细胞中的拷贝数高于正常水平
这些数值反映了每个细胞在每个基因组区间 (bin) 的拷贝数状态，可以用于识别恶性细胞和亚克隆结构

Q3：AtaCNV 与其他 CNV 检测工具相比有什么优势？

A：AtaCNV 的主要优势包括：

专为 scATAC-seq 设计：充分利用了 scATAC-seq 数据的特性，直接从染色质可及性数据推断 CNV
高分辨率检测：以 1 Mbp 为单位提供高分辨率的 CNV 检测
数据平滑与去偏差：自动进行数据平滑处理，并消除 GC 含量可能引起的潜在偏差
多种标准化模式：提供四种标准化模式，可根据数据特点灵活选择
联合分段算法：应用多样本 BIC-seq 算法对所有单细胞进行联合分割，提高检测准确性

Q4：如何理解 CNV 负荷评分？

A：CNV 负荷评分是 AtaCNV 用于识别恶性细胞的重要指标：

高 CNV 负荷：表示该细胞群组具有大量的 CNV 事件，通常被归类为恶性细胞
低 CNV 负荷：表示该细胞群组具有较少的 CNV 事件，通常被归类为非恶性细胞
CNV 负荷评分基于拷贝数比率数据计算，是区分恶性细胞与非恶性细胞的关键指标

Q5：如果没有匹配的正常样本，应该使用哪种标准化模式？

A：如果没有匹配的正常样本，可以按以下优先级选择：

模式 2（已知的正常细胞）：如果能够通过其他方法（如 ArchR 等工具）识别出正常细胞，优先使用此模式
模式 4（自动识别）：如果没有额外信息，可以使用此模式，AtaCNV 会自动识别最可能的正常细胞
模式 3（所有细胞）：仅适用于肿瘤纯度较低 (<50%) 的情况，一般不推荐使用

Q6：AtaCNV 可以检测哪些类型的 CNV？

A：AtaCNV 能够检测多种类型的 CNV：

染色体臂水平 CNV：大范围的染色体扩增或缺失
片段水平 CNV：中等大小的基因组片段扩增或缺失
局部 CNV：小范围的基因组区域扩增或缺失
通过 1 Mbp 窗口的分辨率，AtaCNV 能够检测从局部到染色体臂水平的各种 CNV 事件

参考资料

[1] WANG X, et al. Detecting copy-number alterations from single-cell chromatin sequencing data by AtaCNV[J]. Cell Reports Methods, 2025, 5(1).

单细胞 scATAC-seq & scRNA-seq 双组学高级分析：AtaCNV 分析 ​

前言 ​

AtaCNV 的核心功能 ​

AtaCNV 理论基础 ​

核心原理 ​

什么是 CNV ​

单细胞多组学 CNV 分析的两个方向 ​

关键算法与流程 ​

适用场景与主要目的 ​

云平台操作指南 ​

分析前的准备 ​

参数详解 ​

重要注意事项 ​

操作流程 ​

结果解读 ​

拷贝数变异热图 ​

图表解读 ​

分析要点 ​

结果文件列表 ​

注意事项 ​

常见问题解答 (FAQ) ​

参考资料 ​