Skip to content

添加的外源GFP基因未检出

作者: 高瑞峰
时长: 3 分钟
字数: 531 字
更新: 2025-09-02
阅读: 0 次
构建参考基因组 外源基因

目录


问题描述

在分析数据时,参考基因组中已构建外源插入基因GFP,但在云平台分析结果中找不到GFP基因的表达。


排查过程

  1. 初步确认
    • 表达矩阵中存在GFP基因,但RDS文件中未包含GFP基因,导致云平台分析无对应基因。
  2. 样本验证
    • 以某样品为例,BAM文件可比对到GFP基因,且比对结果均为150Match。
    • XS标签均为XS:Z:Unassigned_NoFeatures
    • 说明GFP基因可被比对,但在featureCounts定量时未被识别。
shell
zcat features.tsv.gz | grep -n GFP
zcat matrix.mtx.gz | awk -v gene_row=索引 '$1 == gene_row { count++ } END { print count }'
samtools view 某样品_SortedByCoordinate_withTag.bam | grep "GFP"

  1. 多样本复查
    • 其他样本同样存在定量未识别GFP基因的问题。

原因分析

IMPORTANT

GFP基因在featureCounts定量未被识别,主要原因是GTF文件格式不规范:外源基因GFP的注释缺少genetranscript行,仅有exon信息,导致featureCounts无法正确定量。


解决办法

TIP

需重新构建包含GFP基因的GTF注释文件,确保包含genetranscriptexon三类注释行。

标准GFP基因GTF格式示例:

text
# 添加gene行
echo -e 'GFP\tunknown\tgene\t1\t720\t.\t+\t.\tgene_id "GFP"; gene_name "GFP"; gene_biotype "protein_coding";' > GFP.gtf

# 添加transcript行 (使用 >> 追加)
echo -e 'GFP\tunknown\ttranscript\t1\t720\t.\t+\t.\tgene_id "GFP"; transcript_id "GFP"; gene_name "GFP"; gene_biotype "protein_coding";' >> GFP.gtf

# 添加exon行 (使用 >> 追加)
echo -e 'GFP\tunknown\texon\t1\t720\t.\t+\t.\tgene_id "GFP"; transcript_id "GFP"; gene_name "GFP"; gene_biotype "protein_coding"; exon_number 1; exon_id "GFP"' >> GFP.gtf

NOTE

使用修正后的GTF文件重新构建参考基因组并进行定量分析,GFP基因即可被正常识别和定量。

0 条评论·0 条回复