Skip to content

单细胞 scATAC-seq & scRNA-seq 双组学高级分析:epiAneuFinder 分析

作者: SeekGene
时长: 12 分钟
字数: 3.4k 字
更新: 2026-01-21
阅读: 0 次
SeekSoul Online

前言

TIP

epiAneuFinder 是一种用于从单细胞 ATAC (scATAC) 数据中检测拷贝数变异 (CNV) 的算法。单细胞多组学数据中包含 scATAC-seq 信息,可以利用 epiAneuFinder 对多组学中的 scATAC-seq 做 CNV 分析,揭示肿瘤细胞异质性。

在单细胞多组学研究中,scATAC-seq 数据不仅提供了染色质开放状态的信息,还可以通过分析基因组区域的读段数量来推断拷贝数变异 (CNV)。epiAneuFinder 利用 scATAC-seq 数据中比对到基因组区域的读段数量作为该区域 DNA 拷贝数的代理指标,能够在单细胞分辨率下推断每个细胞的拷贝数状态,揭示组织内部不同细胞的基因组差异与异质性。

epiAneuFinder 的核心功能

  1. 恶性细胞识别 区分恶性细胞与非恶性细胞。恶性细胞通常表现出大范围的、非随机的 CNV 模式,而非恶性细胞(如 T 细胞、B 细胞)则保持相对正常的二倍体状态。

  2. 肿瘤异质性解析 识别具有不同 CNV 特征的亚克隆群体,揭示肿瘤内部的细胞异质性。

本篇文档旨在为单细胞多组学研究者提供一份详尽的 epiAneuFinder 技术指南,内容涵盖其基本原理、在 SeekSoul Online 云平台上的操作方法、结果解读及常见问题,帮助您快速掌握并应用该工具。

epiAneuFinder 理论基础

核心原理

epiAneuFinder 分析的核心思想是:利用 scATAC-seq 数据中比对到基因组区域的读段数量作为该区域 DNA 拷贝数的代理指标,通过统计模型分析每个窗口的读取计数,推断出每个细胞的拷贝数变异情况。

什么是 CNV

拷贝数变异 (Copy Number Variation, CNV) 是指基因组中较大 DNA 片段在数量上的结构变异,主要表现为染色体区域的扩增 (gain) 或缺失 (loss)。正常情况下,人类细胞为二倍体(每条常染色体通常有 2 个拷贝);当发生扩增时拷贝数超过 2,发生缺失时拷贝数低于 2。

CNV 是肿瘤等多种疾病发生和进展的重要驱动力。传统的 CNV 分析主要基于全基因组测序 (WGS) 或全外显子测序 (WES),只能提供群体平均水平的信息。单细胞 CNV 分析则在单细胞分辨率下推断每个细胞的拷贝数状态,能够揭示组织内部不同细胞的基因组差异与异质性。

单细胞多组学 CNV 分析的两个方向

单细胞多组学数据用于 CNV 分析主要有两个方向:

  • 方向一:基于 scRNA-seq 数据 - 利用基因表达信息推断 CNV,主要工具为 infercnv
  • 方向二:基于 scATAC-seq 数据 - 利用读段数量推断 CNV,主要工具包括 epiAneuFinderAtaCNVCopyscAT

TIP

主流单细胞 ATAC-seq CNV 分析工具简介

目前,常用于 scATAC-seq 数据 CNV 检测的工具有:epiAneuFinder、CopyscAT 和 AtaCNV。本指南聚焦 epiAneuFinder 的详细用法。如需使用其他工具,可参考相关文档获取更多信息。

关键算法与流程

为克服单细胞测序固有的覆盖稀疏性,epiAneuFinder 采用以下策略:

  1. 数据过滤:过滤低覆盖细胞,确保后续分析基于高质量的单细胞数据
  2. 基因组窗口划分:将基因组划分为等长窗口(默认窗口大小为 100,000 碱基对),并量化每个窗口的比对读段数量
  3. 黑名单区域移除:移除 ENCODE 黑名单区域——包含端粒末端、重复区域等具有系统性可比对偏差的基因组位点,以避免干扰拷贝数推断
  4. 低覆盖窗口过滤:针对每个数据集,epiAneuFinder 还会剔除所有细胞中零计数占比过大的窗口,以排除特定数据集中普遍低可比的基因组区域

通过使用不同的癌症 scATAC-seq 数据集,epiAneuFinder 能够根据单细胞的 CNA 谱识别细胞群体中的肿瘤内克隆异质性。研究证明这些 CNA 谱与相同样本的单细胞全基因组测序数据推断出的结果一致。

适用场景与主要目的

适合的样本类型:

  • 肿瘤组织样本(强烈推荐)- 包含大量 CNV 事件,可揭示肿瘤异质性和亚克隆结构
  • 癌前病变或发育异常样本 - 可检测早期基因组结构变异

不适合的样本类型:

  • 正常健康组织 - 大多数细胞为二倍体,缺乏显著的 CNV 事件,CNV 分析意义有限

云平台操作指南

在云平台上,epiAneuFinder 分析流程被设计得直观易用。您无需编写代码,只需通过参数配置界面即可完成分析。

分析前的准备

TIP

epiAneuFinder 分析的成功与否,很大程度上取决于输入数据的质量和样本类型。在开始分析前,请务必确认:

  1. 数据已完成预处理:您的单细胞 ATAC 数据已经过标准的质控、降维、聚类和细胞类型注释。
  2. 样本类型合适:epiAneuFinder 主要适用于肿瘤组织样本,正常健康组织的 CNV 分析意义有限。
  3. 数据质量要求:确保 fragment 文件与细胞条形码对齐,并完成基础 QC。低质量的 ATAC 数据会导致 CNV 检测不准确。

参数详解

下表详细列出了云平台 epiAneuFinder 分析模块的主要参数及其说明。

界面参数说明
任务名称本次分析的任务名称,需以英文字母开头。
sample_name待分析的样本名,可多选,例如Tumor_1,Tumor_2
物种选择您的数据对应的物种。支持人和小鼠两个物种。
分组因子多选,选择纳入分析的具体细胞类型。该参数主要用于 cnv 热图可视化时行注释
聚类结果多选,作用与上述分组因子一样,例如wknn_res.0.5_d30_l2_50

重要注意事项

TIP

  • 窗口大小选择:窗口大小的选择需要平衡分辨率和统计功效。较小窗口 (50kb) 提供更高分辨率但需要更高测序深度,较大窗口 (200kb) 适用于测序深度较低的数据但会降低分辨率。建议先用默认窗口大小运行,然后根据结果质量进行调整。
  • 黑名单区域:强烈建议使用 ENCODE 黑名单区域文件,以排除具有系统性比对偏差的基因组位点。
  • 参数一致性:窗口大小等关键参数一旦确定,应在全数据分析中保持一致,以确保结果的可比性。
  • 样本类型:epiAneuFinder 主要适用于肿瘤组织样本,正常健康组织的 CNV 分析意义有限。

操作流程

  1. 进入分析模块:在云平台导航至"高级分析"模块,选择"epiAneuFinder"。
  2. 创建新任务:为您的分析任务命名,并选择要分析的样本或项目。
  3. 配置参数:根据上述指南,选择要分析的细胞类型、分组信息、窗口大小等参数。
  4. 提交任务:确认参数无误后,点击"提交"按钮,等待分析完成。
  5. 查看结果:分析结束后,在任务列表中查看生成的分析报告和结果文件,包括 CNV 热图、拷贝数矩阵等。

结果解读

epiAneuFinder 的分析报告包含丰富的图表和数据文件,以下是对核心结果的详细解读。

拷贝数变异热图

拷贝数变异热图是 CNV 分析的核心可视化结果,全面展示了所有细胞在全基因组范围内的拷贝数状态:

图表解读

  • 行与列的含义

    • 每一行代表一个细胞
    • 每一列代表一个染色体臂,热图的颜色表示 CNV 分数
    • 列的顺序对应基因组从 1 号染色体到性染色体(若保留)的线性排列
  • 颜色映射

    • copy number 值在 2 附近,表示正常的二倍体状态
    • copy number 在 1~2 之间,表示染色质存在缺失,越靠近 1,表示缺失越严重
    • copy number 在 2~3 之间,表示染色质存在扩增,越靠近 3 表示扩增越严重
    • 颜色越红表示扩增越严重,颜色越蓝表示缺失越严重
  • 细胞注释

    • 热图左侧色带分别表示将细胞按照细胞类型和细胞聚类情况进行排列
    • 热图通常会在行侧添加细胞类型注释或 cluster 信息,便于区分恶性与非恶性细胞群
    • 恶性细胞通常表现出明显的 CNV 模式(大范围的扩增或缺失),而非恶性细胞(如 T 细胞、B 细胞)则保持相对正常的二倍体状态

分析要点

  1. 识别恶性细胞:通过观察 CNV 模式,可以区分恶性细胞与非恶性细胞。恶性细胞通常表现出大范围的、非随机的 CNV 模式,而非恶性细胞则保持相对正常的二倍体状态。

  2. 解析肿瘤异质性:不同细胞群体可能表现出不同的 CNV 特征,这些差异反映了肿瘤内部的细胞异质性和亚克隆结构。

  3. 追踪克隆进化:通过比较不同细胞的 CNV 模式相似性,可以推断肿瘤的克隆进化关系,帮助理解肿瘤的发展过程。

结果文件列表

文件名内容说明
results_table.tsv核心数据:包含每个细胞在每个基因组窗口的拷贝数状态。
cnv_heatmap_annotated.pdf核心可视化:拷贝数变异热图,展示所有细胞在全基因组范围内的拷贝数状态。

注意事项

1. 样本类型的重要性:epiAneuFinder 主要适用于肿瘤组织样本,正常健康组织的 CNV 分析意义有限。在进行 CNV 分析前,请确认样本类型是否适合。

2. 参数选择的影响:窗口大小、过滤阈值等参数的选择会显著影响 CNV 检测结果。建议先用默认参数运行,然后根据结果质量进行适当调整。

3. 黑名单区域的使用:强烈建议使用 ENCODE 黑名单区域文件,以排除具有系统性比对偏差的基因组位点,避免干扰拷贝数推断。

4. 结果解读需谨慎:CNV 检测结果需要结合生物学知识进行解读。某些技术因素(如测序深度、批次效应)可能会影响 CNV 检测的准确性。

5. 与其他工具的比较:epiAneuFinder 是专为 scATAC-seq 数据设计的 CNV 检测工具。如果您的数据包含 scRNA-seq 信息,也可以考虑使用 infercnv 进行 CNV 分析,两种方法的结果可以相互验证。

常见问题解答 (FAQ)

Q1:如何选择合适的窗口大小?

A:窗口大小的选择需要平衡分辨率和统计功效:

  • 较小窗口 (50kb):提供更高的分辨率,但需要更高的测序深度,噪声可能较大
  • 默认窗口 (100kb):适用于大多数情况,在分辨率和统计功效之间取得平衡
  • 较大窗口 (200kb 或更大):适用于测序深度较低的数据,但会降低分辨率
  • 建议:可以先使用默认窗口大小运行,如果检测到的 CNV 事件过多或过少,再根据数据特点调整窗口大小

Q2:如何解释拷贝数结果中的数值?

A:在拷贝数推断结果中:

  • 接近 2:表示拷贝数正常(二倍体状态),即该区域在对应细胞中保持正常的拷贝数
  • 1~2 之间:表示拷贝数缺失 (loss),该区域在对应细胞中的拷贝数低于正常水平,越接近 1 表示缺失越严重
  • 2~3 之间:表示拷贝数扩增 (gain),该区域在对应细胞中的拷贝数高于正常水平,越接近 3 表示扩增越严重
  • 这些数值反映了每个细胞在每个基因组窗口的拷贝数状态,可以用于识别恶性细胞和亚克隆结构

Q3:如何区分恶性细胞与非恶性细胞?

A:通过观察 CNV 热图可以区分恶性细胞与非恶性细胞:

  • 恶性细胞:通常表现出大范围的、非随机的 CNV 模式,在热图上可以看到明显的扩增(红色)或缺失(蓝色)区域
  • 非恶性细胞:通常保持相对正常的二倍体状态,在热图上表现为接近中性的颜色 (copy number 值接近 2)
  • 建议结合细胞类型注释信息,进一步确认恶性细胞的身份

参考资料

[1] SCHEP A N, et al. epiAneufinder: detecting copy number alterations in single-cell ATAC-seq data[J]. Nature Methods, 2021, 18(12): 1473-1481.

0 条评论·0 条回复