Skip to content

输入与数据准备

作者: SeekGene
时长: 4 分钟
字数: 777 字
更新: 2026-05-12
阅读: 0 次
甲基化 + RNA 双组学 输入

必需的输入文件

SeekSoul™ Methyl Tools 接受每个样本的转录组和甲基化双端 FASTQ 文件:

  • 转录组 Read1 FASTQ
  • 转录组 Read2 FASTQ
  • 甲基化 Read1 FASTQ
  • 甲基化 Read2 FASTQ

如果一个样本包含多个测序数据集,请以相同的顺序列出它们。在 Shell 模式下,使用逗号分隔文件路径。在 Nextflow 模式下,在 samplesheet 中为每个数据集提供一行。

Shell 输入参数

Shell 封装脚本 sc_methy_workflow.sh 使用以下参数:

  • $1:转录组 Read1 FASTQ 路径
  • $2:转录组 Read2 FASTQ 路径
  • $3:甲基化 Read1 FASTQ 路径
  • $4:甲基化 Read2 FASTQ 路径
  • --sample:样本名称
  • --outdir:输出目录
  • --database_dir:参考基因组数据库目录
  • --chemistryDD-MET3DD-MET5
  • --core:CPU 核心数
  • --filter_ch:移除包含超过 n 个 CH 甲基化位点的 reads;设置为 0 可禁用

样本命名规则

从 v2.0.0 开始,对 sample_idoutdir 进行更严格的验证:

  • 不允许使用空格
  • 类似空格的分隔符应规范为下划线
  • 保持转录组和甲基化输入的样本名称一致

Nextflow Samplesheet 格式

必需的表头是:

text
sample_id,expression_r1,expression_r2,methylation_r1,methylation_r2

单个数据集的示例:

text
sample_id,expression_r1,expression_r2,methylation_r1,methylation_r2
XYRD-WTJW880,/path/to/XYRD-WTJW880-E_S1_L005_R1_001.fastq.gz,/path/to/XYRD-WTJW880-E_S1_L005_R2_001.fastq.gz,/path/to/XYRD-WTJW880-MET_S01_L001_R1_001.fastq.gz,/path/to/XYRD-WTJW880-MET_S01_L001_R2_001.fastq.gz

转录组和甲基化 FASTQ 数量不相等时的示例:

text
sample_id,expression_r1,expression_r2,methylation_r1,methylation_r2
WTJW969,/path/to/WTJW969_E_L003_R1.fq.gz,/path/to/WTJW969_E_L003_R2.fq.gz,/path/to/WTJW969_Met_L000_R1.fq.gz,/path/to/WTJW969_Met_L000_R2.fq.gz
WTJW969,/path/to/WTJW969_E_L004_R1.fq.gz,/path/to/WTJW969_E_L004_R2.fq.gz,/path/to/WTJW969_Met_L001_R1.fq.gz,/path/to/WTJW969_Met_L001_R2.fq.gz
WTJW969,,,/path/to/WTJW969_Met_L002_R1.fq.gz,/path/to/WTJW969_Met_L002_R2.fq.gz
WTJW969,,,/path/to/WTJW969_Met_L003_R1.fq.gz,/path/to/WTJW969_Met_L003_R2.fq.gz
WTJW969,,,/path/to/WTJW969_Met_L004_R1.fq.gz,/path/to/WTJW969_Met_L004_R2.fq.gz

参考数据库要求

--database_dir 目录应包含:

text
<database_dir>/
|-- bed/
|   |-- chr_len.bed
|   `-- chr_nochrM.bed
|-- fasta/
|   |-- genome.fa
|   |-- genome.fa.fai
|   `-- Bisulfite_Genome/
|-- genes/
|   `-- genes.gtf
`-- star/

流程使用的路径约定:

  • star/:STAR 基因组索引
  • fasta/genome.fa:基因组 FASTA
  • fasta/:运行 bismark_genome_preparation 后的 Bismark 基因组文件夹
  • genes/genes.gtf:基因注释
  • bed/chr_len.bed:染色体大小
  • bed/chr_nochrM.bed:推荐的不包含线粒体序列的染色体列表

详细的构建步骤请参阅:

代码仓库结构

克隆后,主要流程组件为:

  • nf/main.nf:顶层 Nextflow 入口点;通过 --workflow 选择子工作流
  • nf/subworkflows/rna_metmet_onlyforce_cell 的工作流定义
  • nf/modules/:逐步处理模块
  • nf/bin/:辅助脚本和 barcode 资源
  • nf/nextflow.config:执行配置文件和资源配置
  • nf/nextflow_schema.json:参数模式
  • sc_methy_workflow.sh:用于双组学分析的 Shell 封装脚本
0 条评论·0 条回复