输入与数据准备

作者: SeekGene

时长: 4 分钟

字数: 777 字

更新: 2026-05-12

阅读: 0 次

甲基化 + RNA 双组学输入

必需的输入文件

SeekSoul™ Methyl Tools 接受每个样本的转录组和甲基化双端 FASTQ 文件：

转录组 Read1 FASTQ
转录组 Read2 FASTQ
甲基化 Read1 FASTQ
甲基化 Read2 FASTQ

如果一个样本包含多个测序数据集，请以相同的顺序列出它们。在 Shell 模式下，使用逗号分隔文件路径。在 Nextflow 模式下，在 samplesheet 中为每个数据集提供一行。

Shell 输入参数

Shell 封装脚本 sc_methy_workflow.sh 使用以下参数：

$1：转录组 Read1 FASTQ 路径
$2：转录组 Read2 FASTQ 路径
$3：甲基化 Read1 FASTQ 路径
$4：甲基化 Read2 FASTQ 路径
--sample：样本名称
--outdir：输出目录
--database_dir：参考基因组数据库目录
--chemistry：DD-MET3 或 DD-MET5
--core：CPU 核心数
--filter_ch：移除包含超过 n 个 CH 甲基化位点的 reads；设置为 0 可禁用

样本命名规则

从 v2.0.0 开始，对 sample_id 和 outdir 进行更严格的验证：

不允许使用空格
类似空格的分隔符应规范为下划线
保持转录组和甲基化输入的样本名称一致

Nextflow Samplesheet 格式

必需的表头是：

text

sample_id,expression_r1,expression_r2,methylation_r1,methylation_r2

单个数据集的示例：

text

sample_id,expression_r1,expression_r2,methylation_r1,methylation_r2
XYRD-WTJW880,/path/to/XYRD-WTJW880-E_S1_L005_R1_001.fastq.gz,/path/to/XYRD-WTJW880-E_S1_L005_R2_001.fastq.gz,/path/to/XYRD-WTJW880-MET_S01_L001_R1_001.fastq.gz,/path/to/XYRD-WTJW880-MET_S01_L001_R2_001.fastq.gz

转录组和甲基化 FASTQ 数量不相等时的示例：

text

sample_id,expression_r1,expression_r2,methylation_r1,methylation_r2
WTJW969,/path/to/WTJW969_E_L003_R1.fq.gz,/path/to/WTJW969_E_L003_R2.fq.gz,/path/to/WTJW969_Met_L000_R1.fq.gz,/path/to/WTJW969_Met_L000_R2.fq.gz
WTJW969,/path/to/WTJW969_E_L004_R1.fq.gz,/path/to/WTJW969_E_L004_R2.fq.gz,/path/to/WTJW969_Met_L001_R1.fq.gz,/path/to/WTJW969_Met_L001_R2.fq.gz
WTJW969,,,/path/to/WTJW969_Met_L002_R1.fq.gz,/path/to/WTJW969_Met_L002_R2.fq.gz
WTJW969,,,/path/to/WTJW969_Met_L003_R1.fq.gz,/path/to/WTJW969_Met_L003_R2.fq.gz
WTJW969,,,/path/to/WTJW969_Met_L004_R1.fq.gz,/path/to/WTJW969_Met_L004_R2.fq.gz

参考数据库要求

--database_dir 目录应包含：

text

<database_dir>/
|-- bed/
|   |-- chr_len.bed
|   `-- chr_nochrM.bed
|-- fasta/
|   |-- genome.fa
|   |-- genome.fa.fai
|   `-- Bisulfite_Genome/
|-- genes/
|   `-- genes.gtf
`-- star/

流程使用的路径约定：

star/：STAR 基因组索引
fasta/genome.fa：基因组 FASTA
fasta/：运行 bismark_genome_preparation 后的 Bismark 基因组文件夹
genes/genes.gtf：基因注释
bed/chr_len.bed：染色体大小
bed/chr_nochrM.bed：推荐的不包含线粒体序列的染色体列表

详细的构建步骤请参阅：

代码仓库结构

克隆后，主要流程组件为：

nf/main.nf：顶层 Nextflow 入口点；通过 --workflow 选择子工作流
nf/subworkflows/：rna_met、met_only 和 force_cell 的工作流定义
nf/modules/：逐步处理模块
nf/bin/：辅助脚本和 barcode 资源
nf/nextflow.config：执行配置文件和资源配置
nf/nextflow_schema.json：参数模式
sc_methy_workflow.sh：用于双组学分析的 Shell 封装脚本

输入与数据准备 ​

必需的输入文件 ​

Shell 输入参数 ​

样本命名规则 ​

Nextflow Samplesheet 格式 ​

参考数据库要求 ​

代码仓库结构 ​

输入与数据准备

必需的输入文件

Shell 输入参数

样本命名规则

Nextflow Samplesheet 格式

参考数据库要求

代码仓库结构