Skip to content

单细胞 scATAC-seq & scRNA-seq 双组学高级分析:AtaCNV 分析

作者: SeekGene
时长: 15 分钟
字数: 4.3k 字
更新: 2026-01-21
阅读: 0 次
SeekSoul Online

前言

TIP

AtaCNV 是一种专为单细胞 ATAC-seq (scATAC-seq) 数据开发的拷贝数变异 (CNV) 检测工具。通过处理单细胞染色质可及性测序数据,AtaCNV 能够高分辨率地揭示肿瘤细胞等复杂组织内部的遗传异质性。

在单细胞多组学研究中,scATAC-seq 数据不仅提供了染色质开放状态的信息,还可以通过分析基因组区域的读段数量来推断拷贝数变异 (CNV)。AtaCNV 专为单细胞 ATAC-seq 数据开发,通过处理单细胞染色质可及性测序数据,能够高分辨率地揭示肿瘤细胞等复杂组织内部的遗传异质性。适用于多组学单细胞数据中的 scATAC-seq 通道,实现对肿瘤等复杂样本中细胞拷贝数状态的自动推断与可视化。

AtaCNV 的核心功能

  1. 恶性细胞识别 区分恶性细胞与非恶性细胞。AtaCNV 利用拷贝数比率数据,计算每个细胞群组的 CNV 负荷评分,并据此将高 CNV 负荷的群组归类为恶性细胞。

  2. 高分辨率 CNV 检测 以百万碱基对 (1 Mbp) 基因组片段为单位,提供高分辨率的 CNV 检测,能够精确定量每个细胞在全基因组范围内的拷贝数状态。

  3. 多种标准化模式 提供四种标准化模式,可根据数据特点选择合适的模式,包括匹配的正常样本、已知的正常细胞、所有细胞或自动识别模式。

  4. 数据平滑与去偏差 通过对每个细胞拟合一阶动态线性模型进行平滑处理,同时执行基于细胞的局部回归,消除 GC 含量可能引起的潜在偏差。

  5. 联合分段与拷贝数推断 应用多样本 BIC-seq 算法对所有单细胞进行联合分割,估算每个细胞所获片段的拷贝数比率,并通过贝叶斯方法推断离散拷贝数状态。

本篇文档旨在为单细胞多组学研究者提供一份详尽的 AtaCNV 技术指南,内容涵盖其基本原理、在 SeekSoul Online 云平台上的操作方法、结果解读及常见问题,帮助您快速掌握并应用该工具。

AtaCNV 理论基础

核心原理

AtaCNV 分析的核心思想是:利用 scATAC-seq 数据中比对到基因组区域的读段数量作为该区域 DNA 拷贝数的代理指标,通过数据平滑、标准化、联合分段和拷贝数推断等步骤,推断出每个细胞的拷贝数变异情况。

什么是 CNV

拷贝数变异 (Copy Number Variation, CNV) 是指基因组中较大 DNA 片段在数量上的结构变异,主要表现为染色体区域的扩增 (gain) 或缺失 (loss)。正常情况下,人类细胞为二倍体(每条常染色体通常有 2 个拷贝);当发生扩增时拷贝数超过 2,发生缺失时拷贝数低于 2。

CNV 是肿瘤等多种疾病发生和进展的重要驱动力。传统的 CNV 分析主要基于全基因组测序 (WGS) 或全外显子测序 (WES),只能提供群体平均水平的信息。单细胞 CNV 分析则在单细胞分辨率下推断每个细胞的拷贝数状态,能够揭示组织内部不同细胞的基因组差异与异质性。

单细胞多组学 CNV 分析的两个方向

单细胞多组学数据用于 CNV 分析主要有两个方向:

  • 方向一:基于 scRNA-seq 数据 - 利用基因表达信息推断 CNV,主要工具为 infercnv
  • 方向二:基于 scATAC-seq 数据 - 利用读段数量推断 CNV,主要工具包括 epiAneuFinderAtaCNVCopyscAT

TIP

主流单细胞 ATAC-seq CNV 分析工具简介

目前,常用于 scATAC-seq 数据 CNV 检测的工具有:epiAneuFinder、CopyscAT 和 AtaCNV。本指南聚焦 AtaCNV 的详细用法。如需使用其他工具,可参考相关文档获取更多信息。

关键算法与流程

AtaCNV 的分析流程可归纳为以下几个主要步骤:

  1. 输入与初步筛选:以百万碱基对 (1 Mbp) 基因组片段的单细胞读取计数矩阵作为输入,首先根据片段的可映射性和零值数量,对细胞和基因组片段进行筛选。

  2. 数据平滑与去偏差:为降低极端噪声,AtaCNV 通过对每个细胞拟合一阶动态线性模型,对计数矩阵进行平滑处理。同时执行基于细胞的局部回归,消除 GC 含量可能引起的潜在偏差。

  3. 标准化处理

    • 若存在正常细胞:将平滑后的计数数据与正常细胞数据进行标准化比较,从而从染色质可及性等混杂因素中解卷积出拷贝数信号。
    • 若缺乏正常细胞:因肿瘤单细胞数据常包含大量非肿瘤细胞,AtaCNV 先对细胞进行聚类,识别出高置信度的正常细胞群组,并以其平滑深度数据为基准做标准化。
  4. 联合分段与拷贝数推断:AtaCNV 应用多样本 BIC-seq 算法对所有单细胞进行联合分割,估算每个细胞所获片段的拷贝数比率。

  5. CNV 群组判别与进一步推断:利用拷贝数比率数据,计算每个细胞群组的 CNV 负荷评分,并据此将高 CNV 负荷的群组归类为恶性细胞。对于肿瘤细胞,AtaCNV 进一步通过贝叶斯方法推断其离散拷贝数状态。

适用场景与主要目的

适合的样本类型:

  • 肿瘤组织样本(强烈推荐)- 包含大量 CNV 事件,可揭示肿瘤异质性和亚克隆结构
  • 癌前病变或发育异常样本 - 可检测早期基因组结构变异

不适合的样本类型:

  • 正常健康组织 - 大多数细胞为二倍体,缺乏显著的 CNV 事件,CNV 分析意义有限

单细胞 CNV 分析的主要目的:

  1. 恶性细胞识别 - 区分恶性细胞与非恶性细胞(恶性细胞通常表现出大范围的、非随机的 CNV 模式)
  2. 肿瘤异质性解析 - 识别具有不同 CNV 特征的亚克隆群体
  3. 克隆进化追踪 - 通过 CNV 模式相似性推断肿瘤的克隆进化关系

云平台操作指南

在云平台上,AtaCNV 分析流程被设计得直观易用。您无需编写代码,只需通过参数配置界面即可完成分析。

分析前的准备

TIP

AtaCNV 分析的成功与否,很大程度上取决于输入数据的质量和标准化模式的选择。在开始分析前,请务必确认:

  1. 数据已完成预处理:您的单细胞 ATAC 数据已经过标准的质控、降维、聚类和细胞类型注释。
  2. 样本类型合适:AtaCNV 主要适用于肿瘤组织样本,正常健康组织的 CNV 分析意义有限。
  3. 数据质量要求:确保 fragment 文件与细胞条形码对齐,并完成基础 QC。低质量的 ATAC 数据会导致 CNV 检测不准确。
  4. 标准化模式信息:如果有匹配的正常样本或已知的正常细胞信息,建议提前准备,以获得更准确的 CNV 检测结果。

参数详解

下表详细列出了云平台 AtaCNV 分析模块的主要参数及其说明。

参数名称说明
任务名称本次分析的任务名称,需以英文字母开头,可包含英文字母、数字、下划线和中文。
sample_name样本名称,需填写具体的样本名。
物种物种,仅限于 human 或 mouse。
分组因子细胞注释结果,meta 中对应的列名,例如 CellAnotation。
聚类结果聚类结果,meta 中对应的列名,如 wknn_res.0.5_d30_l2_50。
mode分析模式,必填。可选 “normal cells”(参考正常细胞)、“all cells”(所有细胞)、“none”(无参考)。
Non-TumorCells用于做参考的正常细胞类型。如果选择 mode 为“normal cells”,此处需填写分组因子中的一种细胞类型(如 T_cells);若 mode 为 “all cells” 或 “none”,则无需填写。

重要注意事项

TIP

  • 标准化模式选择:AtaCNV 提供四种标准化模式。模式 1(匹配的正常样本)最可靠,当有匹配的非肿瘤样本时优先使用。模式 2(已知的正常细胞)当样本中的正常细胞已知时使用。模式 3(所有细胞)仅适用于肿瘤纯度较低的情况。模式 4(自动识别)当没有额外信息时使用,但准确性可能较低。
  • 数据平滑:AtaCNV 会自动对数据进行平滑处理,以降低极端噪声,并消除 GC 含量可能引起的潜在偏差。
  • 窗口大小:默认 1 Mbp 窗口大小适用于大多数情况,可根据数据特点调整。
  • 样本类型:AtaCNV 主要适用于肿瘤组织样本,正常健康组织的 CNV 分析意义有限。

操作流程

  1. 进入分析模块:在云平台导航至“高级分析”模块,选择 "AtaCNV"。
  2. 创建新任务:为您的分析任务命名,并选择要分析的样本或项目。
  3. 配置参数:根据上述指南,选择要分析的细胞类型、分组信息、标准化模式等参数。
  4. 提交任务:确认参数无误后,点击“提交”按钮,等待分析完成。
  5. 查看结果:分析结束后,在任务列表中查看生成的分析报告和结果文件,包括 CNV 热图、拷贝数矩阵等。

结果解读

AtaCNV 的分析报告包含丰富的图表和数据文件,以下是对核心结果的详细解读。

拷贝数变异热图

拷贝数变异热图是 CNV 分析的核心可视化结果,全面展示了所有细胞在全基因组范围内的拷贝数状态:

图表解读

拷贝数变异热图中,每一行代表一个细胞,每一列代表基因组上的一个连续区间 (bin)。所有列按照染色体的物理位置顺序排列,从 1 号染色体依次到性染色体(若有)。每一列的颜色反映该区间在对应细胞中的拷贝数相对值:如红色表示拷贝数扩增 (gain),蓝色表示拷贝数缺失 (loss)。热图可见相邻染色体之间的列数可能显著不同(如有的 3 列,有的 4 列,有的只有 1 列),体现了染色体长度的细微差别。

分析要点

  1. 识别恶性细胞:通过观察 CNV 模式,可以区分恶性细胞与非恶性细胞。恶性细胞通常表现出大范围的、非随机的 CNV 模式,而非恶性细胞则保持相对正常的二倍体状态。

  2. 解析肿瘤异质性:不同细胞群体可能表现出不同的 CNV 特征,这些差异反映了肿瘤内部的细胞异质性和亚克隆结构。

  3. 高分辨率检测:AtaCNV 以 1 Mbp 为单位提供高分辨率的 CNV 检测,能够精确定量每个细胞在全基因组范围内的拷贝数状态。

结果文件列表

文件名内容说明
copy_ratio.png拷贝数变异热图:展示所有细胞在全基因组范围内的拷贝数状态。

注意事项

1. 样本类型的重要性:AtaCNV 主要适用于肿瘤组织样本,正常健康组织的 CNV 分析意义有限。在进行 CNV 分析前,请确认样本类型是否适合。

2. 标准化模式的选择:AtaCNV 提供四种标准化模式,选择合适的模式对 CNV 检测的准确性至关重要。建议优先使用模式 1(匹配的正常样本)或模式 2(已知的正常细胞),以获得更准确的结果。

3. 数据质量要求:确保输入数据的质量满足要求,低质量的 ATAC 数据会导致 CNV 检测不准确。AtaCNV 会自动进行数据平滑和去偏差处理,但仍需要高质量的输入数据。

4. 窗口大小的选择:默认 1 Mbp 窗口大小适用于大多数情况,可根据数据特点调整。较小的窗口提供更高的分辨率,但需要更高的测序深度。

5. 结果解读需谨慎:CNV 检测结果需要结合生物学知识进行解读。某些技术因素(如测序深度、批次效应)可能会影响 CNV 检测的准确性。

6. 聚类信息的使用:如果没有预存在的聚类结果,AtaCNV 将基于计数矩阵自动进行聚类。如果已有聚类结果,建议提供以提高分析的准确性。

常见问题解答 (FAQ)

Q1:如何选择合适的标准化模式?

A:AtaCNV 提供了四种标准化模式,选择建议如下:

  • 模式 1 (matched normal sample):最可靠,当有匹配的非肿瘤样本时优先使用
  • 模式 2 (normal cells):当样本中的正常细胞已知时使用,可以通过 ArchR 等工具从 scATAC-seq 数据估计标记基因表达来初步识别正常细胞
  • 模式 3 (all cells):仅适用于肿瘤纯度较低的情况,使用所有细胞构建基线
  • 模式 4 (none):当没有额外信息时使用,AtaCNV 会自动识别最可能的正常细胞,但准确性可能较低
  • 建议:如果可能,尽量使用模式 1 或模式 2,以获得更准确的 CNV 检测结果

Q2:如何解释拷贝状态结果中的数值?

A:在拷贝状态推断结果中:

  • 0.5:表示拷贝数缺失 (loss),该区域在对应细胞中的拷贝数低于正常水平
  • 1:表示拷贝数中性 (neutral),即正常的二倍体状态
  • 1.5:表示拷贝数扩增 (gain),该区域在对应细胞中的拷贝数高于正常水平
  • 这些数值反映了每个细胞在每个基因组区间 (bin) 的拷贝数状态,可以用于识别恶性细胞和亚克隆结构

Q3:AtaCNV 与其他 CNV 检测工具相比有什么优势?

A:AtaCNV 的主要优势包括:

  • 专为 scATAC-seq 设计:充分利用了 scATAC-seq 数据的特性,直接从染色质可及性数据推断 CNV
  • 高分辨率检测:以 1 Mbp 为单位提供高分辨率的 CNV 检测
  • 数据平滑与去偏差:自动进行数据平滑处理,并消除 GC 含量可能引起的潜在偏差
  • 多种标准化模式:提供四种标准化模式,可根据数据特点灵活选择
  • 联合分段算法:应用多样本 BIC-seq 算法对所有单细胞进行联合分割,提高检测准确性

Q4:如何理解 CNV 负荷评分?

A:CNV 负荷评分是 AtaCNV 用于识别恶性细胞的重要指标:

  • 高 CNV 负荷:表示该细胞群组具有大量的 CNV 事件,通常被归类为恶性细胞
  • 低 CNV 负荷:表示该细胞群组具有较少的 CNV 事件,通常被归类为非恶性细胞
  • CNV 负荷评分基于拷贝数比率数据计算,是区分恶性细胞与非恶性细胞的关键指标

Q5:如果没有匹配的正常样本,应该使用哪种标准化模式?

A:如果没有匹配的正常样本,可以按以下优先级选择:

  1. 模式 2(已知的正常细胞):如果能够通过其他方法(如 ArchR 等工具)识别出正常细胞,优先使用此模式
  2. 模式 4(自动识别):如果没有额外信息,可以使用此模式,AtaCNV 会自动识别最可能的正常细胞
  3. 模式 3(所有细胞):仅适用于肿瘤纯度较低 (<50%) 的情况,一般不推荐使用

Q6:AtaCNV 可以检测哪些类型的 CNV?

A:AtaCNV 能够检测多种类型的 CNV:

  • 染色体臂水平 CNV:大范围的染色体扩增或缺失
  • 片段水平 CNV:中等大小的基因组片段扩增或缺失
  • 局部 CNV:小范围的基因组区域扩增或缺失
  • 通过 1 Mbp 窗口的分辨率,AtaCNV 能够检测从局部到染色体臂水平的各种 CNV 事件

参考资料

[1] WANG X, et al. Detecting copy-number alterations from single-cell chromatin sequencing data by AtaCNV[J]. Cell Reports Methods, 2025, 5(1).

0 条评论·0 条回复