Skip to content

寻因 ATAC-多组学产品数据使用 Cell Ranger 分析方法说明

作者: 刘雪岭,高瑞峰
时长: 5 分钟
字数: 978 字
更新: 2025-09-02
阅读: 0 次
ATAC Cell Ranger

配对的 ATAC 和 GE 文库

原则说明

需要同时将 ATAC 和 GE 数据转为 10x Cell Ranger ARC 分析支持的 barcode 白名单。

NOTE

ATAC 和 GE 数据的白名单不同,但有对应关系。DD 的 ATAC 和 GE 数据白名单共用一套,即 P3CB.barcode.txt.gz

Step 1:fastp 数据质控(可选)

bash
# 150:150 拆分的下机数据质控参数参考:
software/fastp \
  -i atac/demo_arc_S1_L001_R1_001.fastq.gz \
  -I atac/demo_arc_S1_L001_R2_001.fastq.gz \
  -o fastpYaml/demo/demo_arc_S1_L001_R1_001.fastq.gz \
  -O fastpYaml/demo/demo_arc_S1_L001_R2_001.fastq.gz \
  -j demo_atac_fastp.json \
  -h demo_atac_fastp.html \
  --cut_tail_window_size 1 --cut_tail_mean_quality 3 --cut_tail --length_required 60

software/fastp \
  -i atac/demo_GE_S1_L001_R1_001.fastq.gz \
  -I atac/demo_GE_S1_L001_R2_001.fastq.gz \
  -o fastpYaml/demo/demo_GE_S1_L001_R1_001.fastq.gz \
  -O fastpYaml/demo/demo_GE_S1_L001_R2_001.fastq.gz \
  -j demo_GE_fastp.json \
  -h demo_GE_fastp.html \
  --cut_tail_window_size 1 --cut_tail_mean_quality 3 --cut_tail --length_required 60

Step 2:数据转化

加载环境,配置参数

可使用 SeekSoulTools 1.2.2 的环境:

bash
# 加载环境
conda activate path/seeksoultools/seeksoultools.1.2.2/

# 配置参数
outdir='path/SeekArcTools/arc_2_10x/demo/'
sample="demo"
gsample='demo_GE'
gfq1="demo1_GE_S1_L001_R1_001.fastq.gz"
gfq2="demo_GE_S1_L001_R2_001.fastq.gz"
asample='demo_arc'
afq1="demo_arc_S1_L001_R1_001.fastq.gz"
afq2="demo_arc_S1_L001_R2_001.fastq.gz"
afq3="demo_arc_S1_L001_R3_001.fastq.gz"
# SeekGene 原始下机数据没有 ATAC R3 文件,但 Cell Ranger 分析需要,所以需要保留这个字符串,后面会用到
scrdir="path/arc_2_10x/to10Xcs/"
# 资源配置
core='16'
memory='60'

调用 Step 1,提取矫正 DD 的 barcode

bash
# Step 1 指定 P3CB.barcode.txt.gz 文件路径,提取转录组文库的 barcode 添加到 readsid 上
mkdir -p ${outdir}/${gsample}
python ${scrdir}/code/barcode.py \
  --fq1 ${outdir}/Rawdata/${gfq1} \
  --fq2 ${outdir}/Rawdata/${gfq2} \
  --samplename ${gsample} \
  --outdir ${outdir}/${gsample} \
  --barcode ${scrdir}/file/P3CB.barcode.txt.gz \
  --chemistry DD-Q \
  --core ${core}

# Step 1 指定 P3CB.barcode.txt.gz 文件路径,提取 ATAC 文库的 barcode 到 readsid 上
mkdir -p ${outdir}/${asample}
python ${scrdir}/code/atacbarcode.py \
  --fq1 ${outdir}/Rawdata/${afq1} \
  --fq2 ${outdir}/Rawdata/${afq2} \
  --samplename ${asample} \
  --outdir ${outdir}/${asample} \
  --barcode ${scrdir}/file/P3CB.barcode.txt.gz \
  --chemistry DD_AG \
  --core ${core}

SeekGene barcode 转为对应的 10x barcode

stcbto10x.py 脚本可使用 SeekArcTools 软件的环境,也可根据脚本需要的模块下载所需包。

bash
mkdir -p ${outdir}/${gsample}/to10xdata
mkdir -p ${outdir}/${asample}/to10xdata
python ${scrdir}/code/stcbto10x.py \
  --gfq1 ${outdir}/${gsample}/step1/${gsample}_1.fq.gz \
  --gfq2 ${outdir}/${gsample}/step1/${gsample}_2.fq.gz \
  --afq1 ${outdir}/${asample}/step1/${asample}_1.fq.gz \
  --afq2 ${outdir}/${asample}/step1/${asample}_2.fq.gz \
  --outgfq1 ${outdir}/${gsample}/to10xdata/${gfq1} \
  --outgfq2 ${outdir}/${gsample}/to10xdata/${gfq2} \
  --outafq1 ${outdir}/${asample}/to10xdata/${afq1} \
  --outafq2 ${outdir}/${asample}/to10xdata/${afq2} \
  --outafq3 ${outdir}/${asample}/to10xdata/${afq3} \
  --x10 ${scrdir}/file/merged_10xCB.csv \
  --cb_file ${outdir}/stcbto10x.csv

IMPORTANT

Cell Ranger ARC 分析需要的 ATAC 数据格式与 DD 平台产出的 ATAC 格式不同。对 ATAC 文库需要准备 R1、R2、R3 的格式。

Cell Ranger ARC 要求的数据格式

GE 数据格式

text
样本名称:[Sample Name]S1_L00[Lane Number][Read Type]_001.fastq.gz
格式如下:
    I1: Dual index i7 read (optional)
    I2: Dual index i5 read (optional)
    R1: Read 1
    R2: Read 2

ATAC 数据格式

text
样本名称:[Sample Name]S1_L00[Lane Number][Read Type]_001.fastq.gz
格式如下1:
    I1: Dual index i7 read (optional)
    R1: Read 1
    R2: Dual index i5 read
    R3: Read 2
或者格式如下:
    I1: Dual index i7 read (optional)
    R1: Read 1
    I2: Dual index i5 read
    R2: Read 2

Step 3:Cell Ranger multi 分析

相关详细参数可参考 10x 官网:

bash
cellranger-arc count \
  --id=demo10Xsc \
  --reference=refdata-cellranger-arc-mm10-2020-A-2.0.0 \
  --libraries=library.csv \
  --localcores=8 \
  --localmem=64

配置文件,配置转好的数据 fastq 路径:

text
# library.csv
fastqs,sample,library_type
data/,demo_GE,Gene Expression
data/,demo_arc,Chromatin Accessibility

TIP

转化后的 GEX、ATAC 文库也可单独分析:

  • ATAC 使用 cellranger-atac count,需额外添加参数 --chemistry=ARC-v1
  • GEX 使用 cellranger count,需额外添加参数 --chemistry=ARC-v1
bash
/cellranger-atac-2.0.0/cellranger-atac count \
  --id=LD758_ATAC \
  --reference=refdata-cellranger-arc-mm10-2020-A-2.0.0 \
  --fastqs=data/ \
  --localcores=8 \
  --localmem=64 \
  --sample=demo_arc \
  --chemistry=ARC-v1

脚本下载:下载

0 条评论·0 条回复