6.1.Alternative Splicing
分析可变剪接的工具本质上还是在对基因表达进行定量,只不过在定量的过程中对不同的可变剪接事件进行了区分。
我们前面已经介绍过,RNA-seq常见的分析一类是在基因水平上直接count有多少reads落在一个gene的exons对应的genomic interval上,如featureCounts;另一类是利用一些统计方法在给出转录本水平上的丰度估计,如cufflinks,Rsem等。
1) Pipeline
2) Data Structure
2a) getting software & data
方法1: 使用docker
Get data (already available in Docker),我们使用 PRJNA130865 中的两个样本:
我们已经准备好注释
`.gtf
文件和map好的.bam
文件(仅包含 mapping 到 X 染色体上的部分),位于 Docker 中的/home/test/alter-spl/input
。如果希望从头做起,读者也可以点击上述相应链接下载原始的 FASTQ 文件; Mus musculus 的基因组注释文件可以从Ensembl下载: GRCm38/mm10。
方法2: 自行下载和安装
2b) input
Format | Description | Notes |
---|---|---|
| 将样本中的 Reads 比对到参考基因组 | - |
| 参考基因组注释文件 | - |
2c) output
Format | Description | Notes |
---|---|---|
many TSV | all possible alternative splicing (AS) events derived from GTF and RNA-seq | - |
详细说明请参见 http://rnaseq-mats.sourceforge.net/rmats4.0.2/user_guide.htm#output
3) Running Steps
和之前章节一样,首先进入到容器:
以下步骤均在 /home/test/alter-spl/
下进行:
3a) check read length
也就是说 read length 均为 35
3b) run
第二行指定输入和输出文件(夹)。 第三行是一些必需参数:
这里我们的数据是 paired-end, 所以选择
-t paired
根据第一步,我们指定
--readLength 35
3c) output
输出文件位于 output/
中。
最重要的是以下两类文件:
AS_Event.MATS.JC.txt
: evaluates splicing with only reads that span splicing junctionsAS_Event.MATS.JCEC.txt
: evaluates splicing with reads that span splicing junctions and reads on target (striped regions on MATS home page figure)
其中,AS_Event
包含以下几种:
A5SS
: alternative 5' splice siteA3SS
: alternative 3' splice siteSE
: skipped exonMXE
: mutually exclusive exonsRI
: retained intron
For example, A5SS.MATS.JC.txt
includes alternative 5' splice site (A5SS) using only reads that span splicing junctions:
其中最重要的列意义如下:
IncFormLen | length of inclusion form, used for normalization |
SkipFormLen | length of skipping form, used for normalization |
P-Value | Significance of splicing difference between two sample groups. (Only available if statistical model is on) |
FDR | False Discovery Rate calculated from p-value. (Only available if statistical model is on) |
IncLevel1 | inclusion level for SAMPLE_1 replicates (comma separated) calculated from normalized counts |
IncLevel2 | inclusion level for SAMPLE_2 replicates (comma separated) calculated from normalized counts |
IncLevelDifference | average(IncLevel1) - average(IncLevel2) |
4) Tips/Utilities
4a) 准备bam文件
可变剪接分析需要用到的是普通的RNA-seq数据,所以用我们前面介绍的STAR和hisat2都是可以的,mapping的参数通常也不需要特殊的设置。我们这里提供了一个hisat2的例子。
(1) install hisat, bamtools, samtools
hisat 下载后解压到当前目录下,另外两个软件在 Docker 中已经装好
(2) 基因组和基因组注释
注意gtf文件的坐标应当和fasta文件是对应的
(3) 下载原始数据
(4) now your working directory looks like this
(5) make hisat index
(6) mapping
5) Homework
为了鉴定 CUGBP1 对 mRNA isoform 的调控,科学家在 C2C12 小鼠成肌细胞(myoblast)中分别表达空载体(SRR065546)和含有干扰 CUGBP1 的 shRNA 的载体(SRR065547)。请同学们至该链接中Files needed by this Tutorial中的清华云Bioinformatics Tutorial / Files路径下的相应文件夹中下载
.bam
输入文件(只含有 map 到 X 染色体的 reads),探索在 X 染色体上存在 differential alternative splicing 的基因。(需要上交代码和输出结果中所有以.MATS.JCEC.txt
结尾的文件)阅读文献("rMATS: Robust and Flexible Detection of Differential Alternative Splicing from Replicate RNA-Seq Data"),简要解释rMATS是如何对PSI(percentage spliced in)的组间差异进行统计检验的(只需解释Unpaired Replicates的情形即可)。
6) References
rMATS is introduced in "rMATS: Robust and Flexible Detection of Differential Alternative Splicing from Replicate RNA-Seq Data" in PNAS
目前已有大量的工具可以用于可变剪接的分析。读者可参考以下文献,探索其他的工具:
Last updated