Skip to content

Fusion分析

作者: SeekGene
时长: 9 分钟
字数: 2.5k 字
更新: 2025-11-21
阅读: 0 次

前言

IMPORTANT

Fusion模块专注于单细胞转录组融合基因检测分析,通过结合STAR-Fusion算法和单细胞转录组数据,实现细胞水平的融合基因鉴定、可视化和功能分析。流程支持human和mouse物种,能够从原始fastq文件或预处理数据中识别融合事件,并在单细胞分辨率上进行展示。

基因融合作为重要的分子事件,在肿瘤发生、细胞分化和疾病进展中扮演着关键角色。SeekSoulOnline云平台的Fusion模块提供了从原始数据处理到结果可视化的完整解决方案,能够准确识别融合基因、评估其在不同细胞群体中的分布,并提供详细的生物学注释信息。


Fusion分析理论基础

核心原理

  1. 数据预处理:对输入的fastq文件进行质控和过滤,去除低质量reads和接头序列,确保后续分析的准确性。
  2. 融合基因检测:使用STAR-Fusion算法进行融合事件识别,该算法结合了STAR比对器的高灵敏度和专用的融合过滤流程,能够有效识别各种类型的基因融合。
  3. 融合验证与注释:对检测到的融合事件进行验证,评估其可靠性,并提供丰富的注释信息,包括断点位置、支持reads数、融合类型等。
  4. 单细胞整合分析:将融合基因检测结果与单细胞转录组数据整合,识别携带特定融合的细胞群体。
  5. 可视化与报告生成:生成UMAP/TSNE可视化图,直观展示融合基因在不同细胞群体中的分布,并生成包含详细分析结果的HTML报告。

技术特点

特点说明优势
STAR-Fusion算法基于STAR比对器,能够高效识别融合转录本高灵敏度、低假阳性率
单细胞水平解析将融合事件映射到特定细胞群体提供细胞异质性视角
多物种支持支持human和mouse基因组分析适用范围广
丰富的注释信息提供断点位置、融合类型、功能注释等便于生物学解读
直观的可视化UMAP/TSNE散点图展示融合基因分布便于结果解释和展示

关键统计指标

  • JunctionReadCount:包含在融合连接位点处,一条read可以拆分匹配到两侧融合基因的reads数量。
  • SpanningFragCount:包含融合连接的reads数量,该reads的R1端和R2端对应基因不同。
  • FFPM:支持融合的reads的标准化结果,即每百万总reads数的融合量。
  • LargeAnchorSupport:在假定断点两侧是否存在reads的较长碱基序列(≥25)匹配,缺少LargeAnchorSupport的融合基因通常为假阳性。
  • PROT_FUSION_TYPE:蛋白质融合类型,如INFRAME(框内融合)等。

SeekSoulOnline云平台操作指南

分析前准备

CAUTION

  • 输入数据应为成对的fastq文件(R1和R2),确保文件命名规范,便于系统正确识别样本信息。
  • 确保选择正确的物种(human或mouse),这将影响参考基因组的选择和后续分析的准确性。
  • 对于大规模数据,建议先进行数据质量评估,确保数据质量满足分析要求。

参数详解

界面参数说明备注
任务名称英文开头,可含中文/数字/下划线用于报告抬头与任务跟踪
样本信息输入样本名称、R1和R2 fastq文件路径支持多个样本并行分析
物种human / mouse决定使用的参考基因组
备注自定义文本记录分析背景信息


结果解读

结果目录速览

路径内容说明
output/results/fusion/融合基因检测原始结果包含STAR-Fusion输出文件
output/results/plots/融合基因可视化图表UMAP/TSNE散点图
output/results/meta/元数据信息细胞注释和统计数据
report/HTML报告目录包含完整分析结果的报告

融合基因表格解读

列名说明重要性
#FusionName融合基因名称主键标识符
JunctionReadCount连接位点支持reads数评估可信度
SpanningFragCount跨融合片段reads数评估可信度
LeftGene/RightGene融合涉及的两个基因功能分析基础
LeftBreakpoint/RightBreakpoint融合断点位置结构分析关键
LargeAnchorSupport长锚点支持情况过滤假阳性重要指标
FFPM融合reads标准化值定量表达水平
PROT_FUSION_TYPE蛋白质融合类型功能预测依据

关键图表示例

融合基因UMAP分布图

下图展示了NUP98--NSD1融合基因在单细胞群体中的分布情况。颜色深浅表示UMI计数,红色表示高表达该融合的细胞。

NUP98--NSD1融合基因UMAP分布图

融合基因TSNE分布图

TSNE图提供了另一种可视化视角,有助于识别融合基因在不同细胞亚群中的分布模式。

NUP98--NSD1融合基因TSNE分布图

生物学意义解读

  1. 功能分类:根据融合基因的注释信息(如NUP98:Oncogene),评估其在细胞生物学过程中的潜在作用。
  2. 细胞特异性:分析融合基因在不同细胞类型中的分布模式,确定其表达的细胞特异性。
  3. 融合类型分析:根据融合断点位置和蛋白质融合类型,预测融合蛋白的结构和功能特性。
  4. 数据库关联:通过与Mitelman、ChimerKB等数据库的比对,获取已知融合事件的临床和生物学信息。

案例参考

Fusion模块的分析结果可广泛应用于多种研究场景,特别是在白血病研究领域具有重要价值。以PPP1R1B::STARD3融合为例:

  • 新型融合基因发现:PPP1R1B::STARD3融合是首次在急性髓系白血病(AML)中报道的融合事件,通过单细胞Fusion分析,可以精确定位携带该融合的细胞群体,了解其在肿瘤异质性中的分布模式。
  • 治疗靶点发现:该融合基因涉及胆固醇代谢和PI3K/AKT信号通路,STARD3参与细胞内胆固醇运输,PPP1R1B在多种实体瘤中作为癌基因发挥作用,其融合产物可能成为新的治疗靶点。
  • 疾病诊断标志物:该融合基因在AML患者中特异性表达,而在B细胞急性淋巴细胞白血病(B-ALL)中未见报道,具有作为AML诊断标志物的潜力。

推荐的实践路径是:

  1. 融合筛选:利用融合基因表格中的支持reads数、FFPM等指标,筛选高可信度的融合事件。
  2. 细胞定位:通过UMAP/TSNE可视化,确定融合基因在不同细胞群体中的分布情况。
  3. 功能注释:结合数据库注释信息,评估融合基因的生物学意义和潜在功能影响。
  4. 验证实验:对重要的融合事件进行后续实验验证,如RT-PCR、FISH等技术。

注意事项与最佳实践

WARNING

融合基因检测结果中可能存在假阳性,需要结合多个指标进行筛选,如JunctionReadCount、LargeAnchorSupport等。对于重要的融合事件,建议进行实验验证。

  • 数据质量控制:确保输入数据质量良好,通过fastp等工具进行质控,过滤低质量reads,提高融合检测的准确性。
  • 参数优化:根据具体研究需求,合理调整分析参数,如物种选择、过滤阈值等。
  • 结果验证:对检测到的重要融合事件,建议使用RT-PCR、Sanger测序等方法进行实验验证。
  • 生物学解读:结合现有文献和数据库信息,对融合事件进行深入的生物学解读,避免过度解读或误读。

常见问题(FAQ)

  1. Q:如何评估融合基因的可信度?
    A:主要参考以下指标:高JunctionReadCount和SpanningFragCount、存在LargeAnchorSupport、正常的Left/RightBreakEntropy值(通常在1.5-2.0之间)、具有已知的生物学功能注释等。

  2. Q:为什么有些融合事件在UMAP/TSNE图上分布较散?
    A:这可能是由于融合事件在多个细胞群体中都有表达,或者样本中存在细胞异质性较高的情况。需要结合具体的生物学背景进行解释。

  3. Q:如何区分真正的融合基因和假阳性?
    A:除了关注统计指标外,还可以参考以下几点:融合基因是否在多个公共数据库中有记录、断点是否位于内含子区域且符合GT-AG剪接信号、融合产物是否具有潜在的生物学功能等。

  4. Q:分析结果中发现了大量线粒体基因相关的融合,这是正常的吗?
    A:线粒体基因(MT-开头)参与的融合事件较为常见,但很多可能是技术原因导致的假阳性。建议结合注释信息和生物学知识进行筛选,重点关注与已知疾病相关的融合事件。


参考文献

  1. Haas, B.J., Dobin, A., Li, B. et al. Accuracy assessment of fusion transcript detection via read-mapping and de novo fusion transcript assembly-based methods. Genome Biol 20, 213 (2019). https://doi.org/10.1186/s13059-019-1842-9
  2. Haas B , Dobin A , Stransky N ,et al.STAR-Fusion: Fast and Accurate Fusion Transcript Detection from RNA-Seq[J]. 2017.DOI:10.1101/120295.
  3. Kumar-Sinha C, Tomlins SA, Chinnaiyan AM. The emergence of gene fusions as biomarkers and therapeutic targets. Cancer Discov. 2015;5(1):36-47. doi:10.1158/2159-8290.CD-14-1014
  4. Detection of novel PPP1R1B::STARD3 fusion transcript in acute myeloid leukemia: a case report. 2023. Case Report. doi:10.1186/s13256-024-04536-w
0 条评论·0 条回复