输入与数据准备
时长: 4 分钟
字数: 777 字
更新: 2026-05-12
阅读: 0 次
必需的输入文件
SeekSoul™ Methyl Tools 接受每个样本的转录组和甲基化双端 FASTQ 文件:
- 转录组 Read1 FASTQ
- 转录组 Read2 FASTQ
- 甲基化 Read1 FASTQ
- 甲基化 Read2 FASTQ
如果一个样本包含多个测序数据集,请以相同的顺序列出它们。在 Shell 模式下,使用逗号分隔文件路径。在 Nextflow 模式下,在 samplesheet 中为每个数据集提供一行。
Shell 输入参数
Shell 封装脚本 sc_methy_workflow.sh 使用以下参数:
$1:转录组 Read1 FASTQ 路径$2:转录组 Read2 FASTQ 路径$3:甲基化 Read1 FASTQ 路径$4:甲基化 Read2 FASTQ 路径--sample:样本名称--outdir:输出目录--database_dir:参考基因组数据库目录--chemistry:DD-MET3或DD-MET5--core:CPU 核心数--filter_ch:移除包含超过n个 CH 甲基化位点的 reads;设置为0可禁用
样本命名规则
从 v2.0.0 开始,对 sample_id 和 outdir 进行更严格的验证:
- 不允许使用空格
- 类似空格的分隔符应规范为下划线
- 保持转录组和甲基化输入的样本名称一致
Nextflow Samplesheet 格式
必需的表头是:
text
sample_id,expression_r1,expression_r2,methylation_r1,methylation_r2单个数据集的示例:
text
sample_id,expression_r1,expression_r2,methylation_r1,methylation_r2
XYRD-WTJW880,/path/to/XYRD-WTJW880-E_S1_L005_R1_001.fastq.gz,/path/to/XYRD-WTJW880-E_S1_L005_R2_001.fastq.gz,/path/to/XYRD-WTJW880-MET_S01_L001_R1_001.fastq.gz,/path/to/XYRD-WTJW880-MET_S01_L001_R2_001.fastq.gz转录组和甲基化 FASTQ 数量不相等时的示例:
text
sample_id,expression_r1,expression_r2,methylation_r1,methylation_r2
WTJW969,/path/to/WTJW969_E_L003_R1.fq.gz,/path/to/WTJW969_E_L003_R2.fq.gz,/path/to/WTJW969_Met_L000_R1.fq.gz,/path/to/WTJW969_Met_L000_R2.fq.gz
WTJW969,/path/to/WTJW969_E_L004_R1.fq.gz,/path/to/WTJW969_E_L004_R2.fq.gz,/path/to/WTJW969_Met_L001_R1.fq.gz,/path/to/WTJW969_Met_L001_R2.fq.gz
WTJW969,,,/path/to/WTJW969_Met_L002_R1.fq.gz,/path/to/WTJW969_Met_L002_R2.fq.gz
WTJW969,,,/path/to/WTJW969_Met_L003_R1.fq.gz,/path/to/WTJW969_Met_L003_R2.fq.gz
WTJW969,,,/path/to/WTJW969_Met_L004_R1.fq.gz,/path/to/WTJW969_Met_L004_R2.fq.gz参考数据库要求
--database_dir 目录应包含:
text
<database_dir>/
|-- bed/
| |-- chr_len.bed
| `-- chr_nochrM.bed
|-- fasta/
| |-- genome.fa
| |-- genome.fa.fai
| `-- Bisulfite_Genome/
|-- genes/
| `-- genes.gtf
`-- star/流程使用的路径约定:
star/:STAR 基因组索引fasta/genome.fa:基因组 FASTAfasta/:运行bismark_genome_preparation后的 Bismark 基因组文件夹genes/genes.gtf:基因注释bed/chr_len.bed:染色体大小bed/chr_nochrM.bed:推荐的不包含线粒体序列的染色体列表
详细的构建步骤请参阅:
代码仓库结构
克隆后,主要流程组件为:
nf/main.nf:顶层 Nextflow 入口点;通过--workflow选择子工作流nf/subworkflows/:rna_met、met_only和force_cell的工作流定义nf/modules/:逐步处理模块nf/bin/:辅助脚本和 barcode 资源nf/nextflow.config:执行配置文件和资源配置nf/nextflow_schema.json:参数模式sc_methy_workflow.sh:用于双组学分析的 Shell 封装脚本
