Skip to content

数据准备

作者: SeekGene
时长: 2 分钟
字数: 406 字
更新: 2026-05-28
阅读: 0 次
甲基化 + RNA 双组学 数据准备

下载参考基因组

bash
# 下载人参考基因组 (GRCh38)
wget -dc -O human-reference-GRCh38.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/methy_demo/methy_exp/v1.1/human-reference-GRCh38.tar.gz"
wget -dc -O human-reference-GRCh38.tar.gz.md5 "https://seekgene-public.oss-cn-beijing.aliyuncs.com/methy_demo/methy_exp/v1.1/human-reference-GRCh38.tar.gz.md5"

# 下载小鼠参考基因组 (GRCm39)
wget -dc -O mouse-reference-GRCm39.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/methy_demo/methy_exp/v1.1/mouse-reference-GRCm39.tar.gz"
wget -dc -O mouse-reference-GRCm39.tar.gz.md5 "https://seekgene-public.oss-cn-beijing.aliyuncs.com/methy_demo/methy_exp/v1.1/mouse-reference-GRCm39.tar.gz.md5"

# 解压参考基因组
tar -xzf human-reference-GRCh38.tar.gz
tar -xzf mouse-reference-GRCm39.tar.gz

下载测试数据(可选)

关于测试数据的下载,请参考 示例数据 文档。

仓库结构

克隆仓库后,关键的 Nextflow 入口点和模块包括:

  • nf/main.nf:转录组 + 甲基化端到端处理的主工作流。
  • nf/methy_only.nf:仅甲基化数据的工作流。
  • nf/modules/:分步处理模块:
    • step1.nf 预处理、质控、条形码提取、转录组分析。
    • step2.nf Bismark 比对和 BAM 排序。
    • step3.nf 单细胞 BAM 拆分、ALLC 生成/合并、多尺度数据集。
    • step4.nf 汇总、降维、联合报告。
    • utils.nf 仅甲基化工作流的辅助工具(reads计数和细胞数预估)。
  • nf/bin/:辅助脚本和资源(例如,条形码白名单)。
  • nf/nextflow.config:执行和资源配置。
  • sc_methy_workflow.sh:运行双组学分析流程的 Shell 脚本。

我们提供两种数据分析方法:

  1. Shell 脚本:通过 sc_methy_workflow.sh 脚本直接运行分析流程。
  2. Nextflow 流程:通过 nf/main.nf 运行 Nextflow 流程。

两种方法的详细信息将在下文提供。

0 条评论·0 条回复