Skip to content

如何构建参考基因组?

作者: SeekGene
时长: 2 分钟
字数: 464 字
更新: 2025-07-25
阅读: 0 次

场景一:构建兼容不同平台单细胞数据的参考基因组

NOTE

如果您既有10X Genomics单细胞数据,又有SeekSpace(R) 产品的单细胞数据,推荐使用10X CellRanger来构建参考基因组,SeekSpace(R) Tools可以兼容CellRanger构建的参考基因组。

处理基因注释文件(GTF 文件)的代码如下:

shell
/path/to/cellranger mkgtf Homo_sapiens.GRCh38.ensembl.gtf Homo_sapiens.GRCh38.ensembl.filtered.gtf \
    --attribute=gene_biotype:protein_coding \
    --attribute=gene_biotype:lncRNA \
    --attribute=gene_biotype:antisense \
    --attribute=gene_biotype:IG_LV_gene \
    --attribute=gene_biotype:IG_V_gene \
    --attribute=gene_biotype:IG_V_pseudogene \
    --attribute=gene_biotype:IG_D_gene \
    --attribute=gene_biotype:IG_J_gene \
    --attribute=gene_biotype:IG_J_pseudogene \
    --attribute=gene_biotype:IG_C_gene \
    --attribute=gene_biotype:IG_C_pseudogene \
    --attribute=gene_biotype:TR_V_gene \
    --attribute=gene_biotype:TR_V_pseudogene \
    --attribute=gene_biotype:TR_D_gene \
    --attribute=gene_biotype:TR_J_gene \
    --attribute=gene_biotype:TR_J_pseudogene \
    --attribute=gene_biotype:TR_C_gene
cellranger mkref --genome=GRCh38 --fasta=GRCh38.fa --genes=GRCh38-filtered-ensembl.gtf
cd GRCh38/genes
gunzip -dc genes.gtf.gz > genes.gtf

IMPORTANT

  • 当cellranger构建的参考基因组与SeekSpace(R) Tools的STAR版本不兼容时,可以将cellranger的STAR路径指定给SeekSpace(R) Tools,例如:--star_path /path/to/cellranger-5.0.1/lib/bin/STAR
  • fasta文件中染色体名称必须与gtf文件中的染色体名称相匹配。例如,fasta的1号染色体名称为chr1,那么gtf文件中1号染色体名称也必须为chr1

场景二:仅有SeekSpace(R)产品,不需要考虑平台兼容性

构建STAR索引的代码如下:

shell
/demo/seekspacetools_v1.0.0/bin/STAR \
  --runMode genomeGenerate \
  --runThreadN 16 \                        
  --genomeDir /path/to/star \             
  --genomeFastaFiles /path/to/genome.fa \  
  --sjdbGTFfile /path/to/genome.gtf \      
  --sjdbOverhang 149 \                     
  --limitGenomeGenerateRAM 17179869184

IMPORTANT

  • fasta文件中染色体名称必须与gtf文件中的染色体名称相匹配。例如,fasta的1号染色体名称为chr1,那么gtf文件中1号染色体名称也必须为chr1
0 条评论·0 条回复