如何构建参考基因组
时长: 2 分钟
字数: 461 字
更新: 2026-01-26
阅读: 0 次
场景一:构建兼容不同平台单细胞数据的参考基因组
NOTE
如果您既有 10X Genomics 单细胞数据,又有 SeekSpace® 产品的单细胞数据,推荐使用10X CellRanger来构建参考基因组,SeekSpace® Tools 可以兼容 CellRanger 构建的参考基因组。
处理基因注释文件(GTF 文件)的代码如下:
shell
/path/to/cellranger mkgtf Homo_sapiens.GRCh38.ensembl.gtf Homo_sapiens.GRCh38.ensembl.filtered.gtf \
--attribute=gene_biotype:protein_coding \
--attribute=gene_biotype:lncRNA \
--attribute=gene_biotype:antisense \
--attribute=gene_biotype:IG_LV_gene \
--attribute=gene_biotype:IG_V_gene \
--attribute=gene_biotype:IG_V_pseudogene \
--attribute=gene_biotype:IG_D_gene \
--attribute=gene_biotype:IG_J_gene \
--attribute=gene_biotype:IG_J_pseudogene \
--attribute=gene_biotype:IG_C_gene \
--attribute=gene_biotype:IG_C_pseudogene \
--attribute=gene_biotype:TR_V_gene \
--attribute=gene_biotype:TR_V_pseudogene \
--attribute=gene_biotype:TR_D_gene \
--attribute=gene_biotype:TR_J_gene \
--attribute=gene_biotype:TR_J_pseudogene \
--attribute=gene_biotype:TR_C_gene
cellranger mkref --genome=GRCh38 --fasta=GRCh38.fa --genes=GRCh38-filtered-ensembl.gtf
cd GRCh38/genes
gunzip -dc genes.gtf.gz > genes.gtfIMPORTANT
- 当 Cell Ranger 构建的参考基因组与 SeekSpace® Tools 的 STAR 版本不兼容时,可以将 Cell Ranger 的 STAR 路径指定给 SeekSpace® Tools,例如:
--star_path /path/to/cellranger-5.0.1/lib/bin/STAR。 - FASTA 文件中染色体名称必须与 GTF 文件中的染色体名称相匹配。例如,FASTA 的 1 号染色体名称为
chr1,那么 GTF 文件中 1 号染色体名称也必须为chr1。
场景二:仅有 SeekSpace® 产品,不需要考虑平台兼容性
构建 STAR 索引的代码如下:
shell
/demo/seekspacetools_v1.0.0/bin/STAR \
--runMode genomeGenerate \
--runThreadN 16 \
--genomeDir /path/to/star \
--genomeFastaFiles /path/to/genome.fa \
--sjdbGTFfile /path/to/genome.gtf \
--sjdbOverhang 149 \
--limitGenomeGenerateRAM 17179869184IMPORTANT
- FASTA 文件中染色体名称必须与 GTF 文件中的染色体名称相匹配。例如,FASTA 的 1 号染色体名称为
chr1,那么 GTF 文件中 1 号染色体名称也必须为chr1。
