SeekSpace Tools v1.0.0
SeekSpace Tools 是寻因生物开发的一套处理单细胞空间转录组数据的软件,该软件延用了SeekSoul Tools模块进行单细胞转录组的分析,包含Cell Barcode定量,判定细胞,得到下游分析的细胞表达矩阵;针对空间文库,SeekSpace(R) Tools可以通过芯片上的空间标签的位置和细胞标签的关系将细胞精确定位到芯片上,并且对组织图像中的组织与背景进行分割,对定位成功的细胞进行下游聚类和差异分析,实现对聚类结果的空间可视化。
软件下载
SeekSpace Tools v1.0.0
Download-SeekSpace Tools - md5: 8f426fe5d0882870c6c13471bca51f04
wget下载方式
mkdir seekspacetools_v1.0.0
cd seekspacetools_v1.0.0
wget -c -O seekspacetools_v1.0.0.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/seekspacetools/seekspacetools_v1.0.0.tar.gz"
curl下载方式
mkdir seekspacetools_v1.0.0
cd seekspacetools_v1.0.0
curl -C - -o seekspacetools_v1.0.0.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/seekspacetools/seekspacetools_v1.0.0.tar.gz"
软件安装
安装:
# decompress
tar zxf seekspacetools_v1.0.0.tar.gz
# install
source ./bin/activate
./bin/conda-unpack
# export path in bashrc
export PATH=`pwd`/bin:$PATH
echo "export PATH=$(pwd)/bin:\$PATH" >> ~/.bashrc
确认安装:
seekspacetools --version
使用教程
数据准备
测试数据下载
测试数据 - md5: 208efa2d39d5190abec986e9b25aa685(物种:小鼠)
wget下载方式
wget -c -O demo.tar "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/data/demodata/space/demo.tar"
# decompress
tar xf demo.tar
curl下载方式
curl -C - -o demo.tar "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/data/demodata/space/demo.tar"
# decompress
tar xf demo.tar
参考基因组下载和构建
Download-mouse-reference-mm10 - md5: 5d3f8ee65f75f8143ec88f77b1821fd8
wget下载方式
wget -c -O mm10.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/data/reference/mm10.tar.gz"
# decompress
tar -zxvf mm10.tar.gz
curl下载方式
curl -C - -o mm10.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/data/reference/mm10.tar.gz"
# decompress
tar -zxvf mm10.tar.gz
参考基因组的构建可以参考如何构建参考基因组
运行
运行示例
示例1:基本用法
IMPORTANT
为分析设置必要的配置文件,包括样本数据的路径、试剂类型、基因组索引、GTF等。使用以下命令运行SeekSpace(R) Tools:
seekspacetools run \
--fq1 /path/to/demo/demo_expression_S8_L007_R1_001.fastq.gz \
--fq2 /path/to/demo/demo_expression_S8_L007_R2_001.fastq.gz \
--spatialfq1 /path/to/demo/demo_spatial_S7_L007_R1_001.fastq.gz \
--spatialfq2 /path/to/demo/demo_spatial_S7_L007_R2_001.fastq.gz \
--hdmifq /path/to/demo/2P231224030A4.fq.gz \
--samplename demo \
--outdir /path/to/outdir \
--genomeDir /path/to/GRCh38/star \
--gtf /path/to/GRCh38/genes/genes.gtf \
--chemistry DDVS \
--core 4 \
--include-introns \
--forceCell 80000 \
--min_umi 200 \
--chip_id 2P231224030A4 \
--DAPI /path/to/demo/2P231224030A4.tif
NOTE
--HE
为可选参数,如提供HE图片,需要指定HE图片路径。
示例2:支持跳过read处理步骤,对图片进行调整
seekspacetools run \
--fq1 /path/to/demo/demo_expression_S8_L007_R1_001.fastq.gz \
--fq2 /path/to/demo/demo_expression_S8_L007_R2_001.fastq.gz \
--spatialfq1 /path/to/demo/demo_spatial_S7_L007_R1_001.fastq.gz \
--spatialfq2 /path/to/demo/demo_spatial_S7_L007_R2_001.fastq.gz \
--hdmifq /path/to/demo/2P231224030A4.fq.gz \
--samplename demo \
--outdir /path/to/outdir \
--genomeDir /path/to/GRCh38/star \
--gtf /path/to/GRCh38/genes/genes.gtf \
--chemistry DDVS \
--core 4 \
--include-introns \
--forceCell 80000 \
--min_umi 200 \
--chip_id 2P231224030A4 \
--DAPI /path/to/demo/2P231224030A4.tif \
--alignment_file /path/to/demo/parameters.json \
--skip
NOTE
--outdir
为seekspacetools第一次分析后的目录路径。
软件参数说明
IMPORTANT
参数 | 参数说明 |
---|---|
--fq1 | 表达文库 R1 fastq数据路径。 |
--fq2 | 表达文库 R2 fastq数据路径。 |
--spatialfq1 | 空间文库 R1 fastq数据路径。 |
--spatialfq2 | 空间文库 R2 fastq数据路径。 |
--hdmifq | HDMI文库 fastq数据路径。 |
--samplename | 样本名称。仅支持数字,字母和下划线。 |
--outdir | 结果输出目录。默认值:./。 |
--genomeDir | STAR构建的参考基因组路径, 版本需要与SeekSpace(R) Tools使用的STAR一致。 |
--gtf | 相应物种的gtf路径。 |
--core | 分析使用的线程数。 |
--chemistry | 试剂类型,每种对应一组--shift 、--pattern 、 --structure 、--barcode 和--sc5p 的组合,可选值:DDVS;DDVS 对应SeekSpace(R) 单细胞空间转录组试剂盒; |
--skip_misB | barcode不允许碱基错配,默认允许一个碱基错配。 |
--skip_misL | linker不允许碱基错配,默认允许一个碱基错配。 |
--skip_multi | 舍弃能纠错为多个白名单barocde的reads,默认纠错为比例最高的barcode。 |
--forceCell | 选⽤此参数,后⾯加⼀个预期的数值N,SeekSpace(R) Tools软件会按照UMI从⾼到低取前N个细胞。默认值:80000。 |
--min_umi | 细胞的最小UMI数,细胞的UMI数低于这个数值时会被丢弃。默认值:200。 |
--include-introns | 不启用时,只会选择exon reads⽤于定量;启用时,intron reads也会⽤于定量。 |
--star_path | 指定其他版本的STAR路径进行比对,版本需要与--genomeDir 版本兼容,默认的--star_path 为环境下的STAR。 |
--chip_id | 芯片ID。 |
--DAPI | DAPI染色的组织图像(TIFF)。 |
--HE | H&E染色的组织图像(TIFF)。 |
--alignment_file | 图片调整的参数文件。 |
--skip | 跳过read处理步骤,从图片调整处续跑。 |
结果文件说明
以下是输出目录结构:每一行代表一个文件或文件夹,用 "├──" 表示,数字表示重要的输出文件。
./
├── Outs
│ ├── demo_report.html 1
│ ├── demo_summary.csv 2
│ ├── demo_aligned_DAPI.png 3
│ ├── demo_aligned_HE.png (optional) 4
│ ├── demo_aligned_HE_TIMG.png (optional) 5
│ ├── demo_zarr 6
│ ├── demo_filtered_feature_bc_matrix 7
│ │ ├── barcode.tsv.gz
│ │ ├── feature.tsv.gz
│ │ ├── matrix.tsv.gz
│ │ └── cell_location.tsv.gz 8
│ └── clustering
│ └── demo.rds 9
└── Analysis
├── scRNA-seq_Analysis
│ ├── step1
│ ├── step2
│ │ ├── featureCounts
│ │ │ └── demo_SortedByName.bam
│ │ └── STAR
│ │ ├── demo_Log.final.out
│ │ └── demo_SortedByCoordinate.bam
│ └── step3
│ ├── filtered_feature_bc_matrix
│ └── raw_feature_bc_matrix
├── Spatial_Positioning
│ ├── demo_valid_spatial_umis.csv.gz
│ └── demo_spatial_umis_cleaned.csv.gz
└── Tissue_Detection
└── demo_bc_under_tissue.csv
NOTE
- 样本的html报告
- 样本的csv格式质控信息
- 样本的DAPI染色图片
- 样本的H&E染色高清图片(可选)
- 样本的H&E染色略缩图(可选)
- zarr格式的样本结果
- 细胞稀疏矩阵
- 细胞空间坐标文件
- rds格式的样本结果
处理过程
表达文库分析
NOTE
SeekSpace(R) Tools 使用 SeekSoul(R) Tools RNA 模块来进行空间转录组表达文库的分析,具体算法描述见SeekSoul(R) Tools。
空间转录组表达文库的R1结构:
细胞判定
IMPORTANT
相较于SeekSoul(R) Tools,SeekSpace(R) Tools在细胞判定过程中默认采用"forceCell"方法,默认提取前80000个细胞的UMI数量,并使用min_umi为200作为默认阈值,筛选出UMI数大于该阈值的细胞作为最终判定的细胞来生成表达矩阵。
空间定位
提取空间标签和位置信息
和空间位置相关的文库有两个,分别是空间文库和HDMI文库。
NOTE
空间文库
空间文库的R1结构和表达文库一致,R2结构如下:
对于空间文库R1,同样使用SeekSoul(R) Tools的RNA模块进行cell barcode校正和UMI提取。然后,在R2上提取spatial barcode,并生成细胞标签(cell barcode)与空间标签(spatial barcode)的对应关系。与表达文库的UMI所代表的含义不同,空间文库的UMI(spatial UMI)代表了每个细胞标签上每个空间标签的表达量。
HDMI文库 HDMI文库为单端测序,每条read包含32个碱基的spatial barcode,每个spatial barcode都有相对应的位置信息。我们使用空间文库提取的spatial barcode作为白名单,并利用SeekSoul(R) Tools的RNA模块对HDMI文库的spatial barcode进行校正,同时提取spatial barcode对应的空间坐标。
过滤
IMPORTANT
- 在空间文库中提取的spatial barcode中,可能会包含一些无效的barcode。这些无效的barcode可能是由于混入了表达文库中长度较短的mRNA片段所致。由于这些片段在HDMI文库中不存在,因此无法提供相应的位置信息。除了上述提到的因素,测序错误也会产生无效的barcode。为了确保数据的准确性,我们对这些无效的spatial barcode进行了过滤处理,将其排除在分析之外。
- 在HDMI文库中,部分spatial barcode可能会出现多次,并且每次出现时可能带有不同的位置信息。由于我们无法确定这些spatial barcode的确切空间位置,因此这些spatial barcode将被过滤掉。
- 针对某些spatial barcode,我们观察到其对应的UMI支持数异常高。我们推测这可能是由于这些spatial barcode在实验操作中脱离了芯片,并被液滴包裹所致。这部分spatial barcode被认为是不准确的。为了过滤掉这些错误的spatial barcode,我们采取了以下步骤:
- 将芯片上的位置按照30x30的大小划分为多个bin。
- 统计每个bin中的spatial barcode的UMI支持数。
- 对bin按照UMI支持数进行降序排序。
- 基于排序后的bins的分布,计算阈值。
- 如果某个bin中的UMI支持数超过阈值,我们将移除该bin中UMI支持数最多的cell barcode对应的所有spatial barcode。
- 最后,我们将过滤掉所有非细胞的cell barcode以及其对应的spatial barcode,仅对在生物学上具有意义的细胞进行定位。
细胞位置判定
在确定细胞的中心位置时,我们必须考虑一些噪声性的spatial barcode的存在。这些spatial barcode可能是在实验过程中作为背景存在于液滴中,或者标记在细胞核的碎片上,导致与液滴中其他细胞核上标记为同一细胞标签。这种情况会导致芯片上出现多个中心位置。所以,我们需要对芯片上具有多个中心的细胞进行过滤以确保那些具有明确定义中心位置的细胞被保留。
NOTE
在左侧图中,展示了一个细胞的spatial barcode在空间中的分布示意图,每个格子代表一个bin。每个bin的大小约为100像素,相当于26.5微米。图中的颜色表示每个bin中spatial barcode 的UMI支持数,颜色越深表示支持数越高。
右侧图是对左侧图中绿色框内的图像进行放大的视角。红点所在的bin代表该细胞中UMI支持数最高的bin,被定义为该细胞的中心。红框内包括中心bin和周围的24个bin,构成了该细胞的核心。为了判断该细胞是否为多中心,我们需要寻找次中心。次中心被定义为不在核心中的UMI支持数最高的bin。我们计算核心的UMI总数与次中心及周围24个bin中的UMI总数之间的比例,如果比例大于等于2,则认为该细胞具有唯一的中心点。对于其他细胞,我们认为它们具有多个中心点,因此将这些细胞排除。
最后,利用细胞核心中的spatial barcode分布,我们可以确定细胞在芯片空间中的位置。
经过上述处理后,有如下数据指标:
IMPORTANT
- Total Spatial Reads: 空间文库中的read数,表示测序获得的所有reads数量。
- Valid Spatial Reads: 有效的空间read数,指的是R1 barcode不需要校正或校正成功,且R2具有至少32个碱基长度的reads数量。
- Total Spatial UMIs: 总的空间UMI数,表示从有效reads中提取出cell barcode、 spatial barcode和UMI后进行去重得到的UMI数目。
- Spatial Barcode Saturation: 空间文库饱和度。1- 总的空间UMI数/有效的空间read数
- Valid Spatial UMIs: 有效的空间UMI数,指的是排除无效spatial barcode后剩余的spatial barcode的UMI支持数
- Spatial UMIs with Unique Locations: 具有唯一位置的spatial barcode的UMI支持数占有效的空间UMI数的比例
- Accurate Spatial UMIs: 准确的spatial barcode的UMI支持数占有效的空间UMI数的比例
- Accurate Spatial UMI Bins: 拥有准确的spatial barcode 的bins占总的bin的比例
- Cell-Identified Spatial UMIs: 与细胞相关的spatial UMI。被判定为细胞的cell barcode上带有的spatial barcode的UMI支持数占准确的spatial UMIs的比例
- Mean Spatial UMIs per Cell: 每个细胞的平均spatial UMI数,与细胞相关的spatial UMI数除以判定的细胞数
组织图像识别
- SeekSapce(R) Tools 基于图像处理算法识别组织图像并提取组织覆盖下的细胞,以进行后续的分析。它能够接收DAPI染色和经过DAPI配准后的HE染色的图像。输入的图像经过缩放和高斯模糊处理,并利用OpenCV中的图像处理算法,最终实现组织和背景的分离。在整个处理过程中,图像的宽高比与原始图像保持一致。
- 如果组织图像和细胞所在区域不完全重合,SeekSpace(R) Tools提供了手动对齐功能。通过手动对齐功能,可以对组织图像进行均匀缩放、平移和旋转操作。对齐后,可以下载图片调整参数,并重新输入到SeekSpace(R) Tools中生成新的背景图像,以确保组织图像与细胞区域的准确对应。
后续分析
经过上述步骤,得到被组织覆盖的细胞的表达矩阵后,我们可以进行下一步的分析。
Seurat分析流程
使用Seurat计算线粒体含量,细胞中UMI总数,细胞中基因总数。之后对矩阵进行归一化、寻找高变基因、降维聚类之后寻找差异基因。