寻因 ATAC-多组学产品数据使用 Cell Ranger 分析方法说明
时长: 5 分钟
字数: 978 字
更新: 2025-09-02
阅读: 0 次
配对的 ATAC 和 GE 文库
原则说明
需要同时将 ATAC 和 GE 数据转为 10x Cell Ranger ARC 分析支持的 barcode 白名单。
NOTE
ATAC 和 GE 数据的白名单不同,但有对应关系。DD 的 ATAC 和 GE 数据白名单共用一套,即 P3CB.barcode.txt.gz
。
Step 1:fastp 数据质控(可选)
bash
# 150:150 拆分的下机数据质控参数参考:
software/fastp \
-i atac/demo_arc_S1_L001_R1_001.fastq.gz \
-I atac/demo_arc_S1_L001_R2_001.fastq.gz \
-o fastpYaml/demo/demo_arc_S1_L001_R1_001.fastq.gz \
-O fastpYaml/demo/demo_arc_S1_L001_R2_001.fastq.gz \
-j demo_atac_fastp.json \
-h demo_atac_fastp.html \
--cut_tail_window_size 1 --cut_tail_mean_quality 3 --cut_tail --length_required 60
software/fastp \
-i atac/demo_GE_S1_L001_R1_001.fastq.gz \
-I atac/demo_GE_S1_L001_R2_001.fastq.gz \
-o fastpYaml/demo/demo_GE_S1_L001_R1_001.fastq.gz \
-O fastpYaml/demo/demo_GE_S1_L001_R2_001.fastq.gz \
-j demo_GE_fastp.json \
-h demo_GE_fastp.html \
--cut_tail_window_size 1 --cut_tail_mean_quality 3 --cut_tail --length_required 60
Step 2:数据转化
加载环境,配置参数
可使用 SeekSoulTools 1.2.2 的环境:
bash
# 加载环境
conda activate path/seeksoultools/seeksoultools.1.2.2/
# 配置参数
outdir='path/SeekArcTools/arc_2_10x/demo/'
sample="demo"
gsample='demo_GE'
gfq1="demo1_GE_S1_L001_R1_001.fastq.gz"
gfq2="demo_GE_S1_L001_R2_001.fastq.gz"
asample='demo_arc'
afq1="demo_arc_S1_L001_R1_001.fastq.gz"
afq2="demo_arc_S1_L001_R2_001.fastq.gz"
afq3="demo_arc_S1_L001_R3_001.fastq.gz"
# SeekGene 原始下机数据没有 ATAC R3 文件,但 Cell Ranger 分析需要,所以需要保留这个字符串,后面会用到
scrdir="path/arc_2_10x/to10Xcs/"
# 资源配置
core='16'
memory='60'
调用 Step 1,提取矫正 DD 的 barcode
bash
# Step 1 指定 P3CB.barcode.txt.gz 文件路径,提取转录组文库的 barcode 添加到 readsid 上
mkdir -p ${outdir}/${gsample}
python ${scrdir}/code/barcode.py \
--fq1 ${outdir}/Rawdata/${gfq1} \
--fq2 ${outdir}/Rawdata/${gfq2} \
--samplename ${gsample} \
--outdir ${outdir}/${gsample} \
--barcode ${scrdir}/file/P3CB.barcode.txt.gz \
--chemistry DD-Q \
--core ${core}
# Step 1 指定 P3CB.barcode.txt.gz 文件路径,提取 ATAC 文库的 barcode 到 readsid 上
mkdir -p ${outdir}/${asample}
python ${scrdir}/code/atacbarcode.py \
--fq1 ${outdir}/Rawdata/${afq1} \
--fq2 ${outdir}/Rawdata/${afq2} \
--samplename ${asample} \
--outdir ${outdir}/${asample} \
--barcode ${scrdir}/file/P3CB.barcode.txt.gz \
--chemistry DD_AG \
--core ${core}
SeekGene barcode 转为对应的 10x barcode
stcbto10x.py
脚本可使用 SeekArcTools 软件的环境,也可根据脚本需要的模块下载所需包。
bash
mkdir -p ${outdir}/${gsample}/to10xdata
mkdir -p ${outdir}/${asample}/to10xdata
python ${scrdir}/code/stcbto10x.py \
--gfq1 ${outdir}/${gsample}/step1/${gsample}_1.fq.gz \
--gfq2 ${outdir}/${gsample}/step1/${gsample}_2.fq.gz \
--afq1 ${outdir}/${asample}/step1/${asample}_1.fq.gz \
--afq2 ${outdir}/${asample}/step1/${asample}_2.fq.gz \
--outgfq1 ${outdir}/${gsample}/to10xdata/${gfq1} \
--outgfq2 ${outdir}/${gsample}/to10xdata/${gfq2} \
--outafq1 ${outdir}/${asample}/to10xdata/${afq1} \
--outafq2 ${outdir}/${asample}/to10xdata/${afq2} \
--outafq3 ${outdir}/${asample}/to10xdata/${afq3} \
--x10 ${scrdir}/file/merged_10xCB.csv \
--cb_file ${outdir}/stcbto10x.csv
IMPORTANT
Cell Ranger ARC 分析需要的 ATAC 数据格式与 DD 平台产出的 ATAC 格式不同。对 ATAC 文库需要准备 R1、R2、R3 的格式。
Cell Ranger ARC 要求的数据格式
GE 数据格式
text
样本名称:[Sample Name]S1_L00[Lane Number][Read Type]_001.fastq.gz
格式如下:
I1: Dual index i7 read (optional)
I2: Dual index i5 read (optional)
R1: Read 1
R2: Read 2
ATAC 数据格式
text
样本名称:[Sample Name]S1_L00[Lane Number][Read Type]_001.fastq.gz
格式如下1:
I1: Dual index i7 read (optional)
R1: Read 1
R2: Dual index i5 read
R3: Read 2
或者格式如下:
I1: Dual index i7 read (optional)
R1: Read 1
I2: Dual index i5 read
R2: Read 2
Step 3:Cell Ranger multi 分析
相关详细参数可参考 10x 官网:
bash
cellranger-arc count \
--id=demo10Xsc \
--reference=refdata-cellranger-arc-mm10-2020-A-2.0.0 \
--libraries=library.csv \
--localcores=8 \
--localmem=64
配置文件,配置转好的数据 fastq 路径:
text
# library.csv
fastqs,sample,library_type
data/,demo_GE,Gene Expression
data/,demo_arc,Chromatin Accessibility
TIP
转化后的 GEX、ATAC 文库也可单独分析:
- ATAC 使用
cellranger-atac count
,需额外添加参数--chemistry=ARC-v1
- GEX 使用
cellranger count
,需额外添加参数--chemistry=ARC-v1
bash
/cellranger-atac-2.0.0/cellranger-atac count \
--id=LD758_ATAC \
--reference=refdata-cellranger-arc-mm10-2020-A-2.0.0 \
--fastqs=data/ \
--localcores=8 \
--localmem=64 \
--sample=demo_arc \
--chemistry=ARC-v1
脚本下载:下载