Skip to content

ATAC+RNA 多组学:Peak2Gene (Peak-Gene linking) 关联分析

作者: SeekGene
时长: 8 分钟
字数: 2.1k 字
更新: 2026-01-26
阅读: 0 次
ATAC+RNA 双组学 分析指南

文档概览

Peak2Gene (Peak-Gene linking) 分析是一种专为单细胞多组学 (ATAC + RNA) 数据设计的方法。其核心目标是识别基因表达与其附近染色质可及性峰 (Peaks) 之间的显著调控关系。该方法通过统计每个细胞中基因表达量与其附近 Peaks 的 ATAC 信号强度间的相关性,并利用广义线性模型校正 GC 含量、Peak 长度、距离等技术偏置,从而推断哪个 Peak 可能参与调控哪些基因。Peak2Gene 分析不仅帮助揭示顺式调控网络 (如增强子-基因连接),还能与 Motif 富集/活性结果结合,系统性挖掘关键转录因子的直接靶基因和调控作用,是多组学调控机制研究的基础工具之一。

Peak2Gene 分析的意义

Peak2Gene 分析通过整合单细胞 ATAC-seq 和 RNA-seq 数据,旨在揭示染色质可及性 (Peak) 与基因表达 (Gene) 之间的真实调控联系,是解析多组学调控网络的核心技术之一。

基因调控网络简介

基因调控网络 (Gene Regulatory Network, GRN) 由转录因子 (TF)、调控元件 (如启动子、增强子、Peaks) 以及靶基因构成。TF 通过识别特定 DNA Motif 结合到开放染色质区域,进而影响下游基因的转录。单细胞多组学手段的优势在于,可以在每个细胞分辨率下同时观测 TF 和靶基因的表达 (scRNA-seq)、以及 TF 结合位点的染色质可及性 (scATAC-seq,并结合 Motif 识别进行推断)。

通过联合单细胞 ATAC 与 RNA 数据,可实现:

  • TF 表达谱的确定
  • TF 结合位点 (Peak) 的开放性评估
  • Motif 的富集情况及功能活性推断
  • 靶基因表达的动态变化监测

这种“TF 表达 × Motif-Peak 结合 × 靶基因表达”三维整合,有助于重建单细胞尺度的调控因果链,精准捕捉关键调控及作用靶点,并为 GRN 建图和机制深入提供着力点。

Peak2Gene 分析如何助力解析 GRN 基因调控网络

  • Motif 分析通过与已知转录因子识别序列比对,从开放染色质 Peak 中识别可能被 TF 结合的区域,是精准描述 TF → Peak 调控关系的重要基础。这些 Motif 富集的 Peaks 被视为 TF 调控潜在靶点,是调控网络的“上游”基础。具体 Motif 分析的相关内容请阅读 Motif 分析详解与实践流程
  • Peak2Gene 分析则通过在单细胞水平考察 Peak 可及信号与附近基因表达的相关性,精确捕捉每个 Peak 与其潜在靶基因之间的调控配对,克服仅靠线性距离注释的局限。这一策略有力刻画了开放 Peaks 实际参与基因调控的真实证据,阐释调控网络“下游”环节。
  • 结合 Motif 分析 (TF → Peak) 与 Peak2Gene 分析 (Peak → Gene),能够系统性描绘 TF、调控元件 Peak 及其作用靶基因三者间的直接调控轴,为多组学调控机制研究提供多重证据支撑。

标准分析流程

  1. 差异 Peak 筛选:定位具有生物学意义的开放区域。
  2. Peak2Gene 注释:整合表达及距离,建立 Peak-Gene 关联。
  3. Motif 分析:鉴定及评估 Motif 富集和活性,预测关键 TF。
  4. 多组学联合验证:分析 Motif 活性、TF/靶基因表达和 Peak 可及性之间的调控一致性。

Peak2Gene 分析的实现

在 Signac 包中,主要通过 LinkPeaks() 核心函数实现 Peak-Gene 相关性分析: 对于每个基因,通过计算该基因表达量与其邻近 Peaks 的可及性信号之间的相关性,并校正 GC 含量、整体可及性、Peak 长度等多种技术偏置,从而识别出可能调控该基因的 Peak 集合。

对于每个目标基因:

  1. 筛选距离该基因(如 ±500kb)范围内的 Peaks。
  2. 计算这些 Peaks 可及性与基因表达的相关性。
  3. 使用广义线性模型校正 GC%/Peak Size/整体可及性等偏置,获得更为可靠的 Peak-Gene 关联。

这种方式可以精确定量每个 Peak 对靶基因的调控支持证据,是重构多组学调控网络的关键环节。实际项目落地时,推荐对感兴趣的基因集先行评估,也可扩展至全基因组自动注释。

r
# 首先利用 RegionStats() 注释每个 Peak 区域的 GC 含量等特征,用于后续偏置校正
DefaultAssay(obj) <- "ATAC"
obj <- RegionStats(obj, genome = BSgenome.Hsapiens.UCSC.hg38)

# LinkPeaks(): 基于广义线性模型建立 Peaks 与基因间相关性,并作多重偏置校正,得到显著 Peak-Gene 关联
obj <- LinkPeaks(
  object = obj,
  peak.assay = "ATAC",
  expression.assay = "SCT",
  genes.use = c("LYZ", "MS4A1") # 仅计算指定基因;如需全基因组可省略本参数
)

Peak2Gene 结果展示

Peak-Gene 相关性热图

热图展示了染色质开放区域(Peaks)与基因表达之间的相关性模式。热图分为两部分:

  • ATAC 热图 (左):显示 ATAC-seq 信号强度 (染色质可及性),蓝色表示低可及性,红色表示高可及性。
  • RNA 热图 (右):显示相应基因的表达水平,蓝色表示低表达,黄色表示高表达。
  • 每一行代表一个 Peak-Gene 对,每一列代表一个单细胞。
  • 顶部颜色条标识不同细胞类型或群体,便于观察特定细胞群体中的 Peak-Gene 关联模式。
图:Peak-Gene 相关性热图

关联 Peak 数分布直方图

该直方图展示了每个基因关联到 1~25 个 Peak 的数量分布:

  • 横轴:基因所关联的 Peak 数量 (1~25)
  • 纵轴:具有相应关联 Peak 数的基因数量
  • 虚线表示中位数位置,并以文本注明具体中位数
图:关联 Peak 数分布直方图

Top 显著 Peak-Gene 关联火山图

火山图聚焦于 Top 10 最显著的 Peak-Gene 关联:

  • 横轴:相关性 Score
  • 纵轴:-log10(p) 值
  • 标注 Top 10 显著基因便于直观呈现
图:Top 显著 Peak-Gene 关联火山图

全部 Peak-Gene 对相关性分布曲线

曲线图整体展示了全部 Peak-Gene 对的相关系数分布,可见相关性强的 Peak-Gene 对分布及趋势:

  • 横轴:Peak-Gene 对 (按相关性高到低排序)
  • 纵轴:对应相关系数
图:全部 Peak-Gene 对相关性分布曲线

常见问题

Q1:Peak2Gene 分析与 Motif 富集有什么联系?

A:两者关注角度不同,但结果可互补验证。

  • Peak2Gene:主要回答“哪些 Peak 实际调控了哪些基因”,通过相关性判定 Peak-Gene 调控关系,输出为 Peak-Gene 配对及相关性评分。
  • Motif 富集:聚焦于“某一组 Peak 中富集了哪些转录因子结合位点 (Motif)”,反映哪些 TF 可能调控这些 Peak,输出为 Motif 丰度及统计显著性。

Q2:为什么 Peak2Gene 得到的关联数较少?

A:可从以下方面排查原因:

  • 样本或细胞数量较少,导致统计功效不足
  • 选取的基因集过小或目标区域受限
  • 设定的显著性阈值过高,过滤掉了较多关联
  • RegionStats 步骤未正确执行,缺少偏置校正信息
  • Motif 富集与 Peak2Gene 分析使用了不同细胞子集或过滤条件
0 条评论·0 条回复