6.1.Alternative Splicing
Last updated
Last updated
分析可变剪接的工具本质上还是在对基因表达进行定量,只不过在定量的过程中对不同的可变剪接事件进行了区分。
我们前面已经介绍过,RNA-seq常见的分析一类是在基因水平上直接count有多少reads落在一个gene的exons对应的genomic interval上,如featureCounts;另一类是利用一些统计方法在给出转录本水平上的丰度估计,如cufflinks,Rsem等。
Get data (already available in Docker),我们使用 PRJNA130865 中的两个样本:
我们已经准备好注释
`.gtf
文件和map好的.bam
文件(仅包含 mapping 到 X 染色体上的部分),位于 Docker 中的/home/test/alter-spl/input
。如果希望从头做起,读者也可以点击上述相应链接下载原始的 FASTQ 文件; Mus musculus 的基因组注释文件可以从Ensembl下载: GRCm38/mm10。
Format | Description | Notes |
---|---|---|
| 将样本中的 Reads 比对到参考基因组 | - |
| 参考基因组注释文件 | - |
Format | Description | Notes |
---|---|---|
many TSV | all possible alternative splicing (AS) events derived from GTF and RNA-seq | - |
详细说明请参见 http://rnaseq-mats.sourceforge.net/rmats4.0.2/user_guide.htm#output
和之前章节一样,首先进入到容器:
以下步骤均在 /home/test/alter-spl/
下进行:
也就是说 read length 均为 35
第二行指定输入和输出文件(夹)。 第三行是一些必需参数:
这里我们的数据是 paired-end, 所以选择 -t paired
根据第一步,我们指定 --readLength 35
输出文件位于 output/
中。
最重要的是以下两类文件:
AS_Event.MATS.JC.txt
: evaluates splicing with only reads that span splicing junctions
AS_Event.MATS.JCEC.txt
: evaluates splicing with reads that span splicing junctions and reads on target (striped regions on MATS home page figure)
其中,AS_Event
包含以下几种:
A5SS
: alternative 5' splice site
A3SS
: alternative 3' splice site
SE
: skipped exon
MXE
: mutually exclusive exons
RI
: retained intron
For example, A5SS.MATS.JC.txt
includes alternative 5' splice site (A5SS) using only reads that span splicing junctions:
其中最重要的列意义如下:
IncFormLen | length of inclusion form, used for normalization |
SkipFormLen | length of skipping form, used for normalization |
P-Value | Significance of splicing difference between two sample groups. (Only available if statistical model is on) |
FDR | False Discovery Rate calculated from p-value. (Only available if statistical model is on) |
IncLevel1 | inclusion level for SAMPLE_1 replicates (comma separated) calculated from normalized counts |
IncLevel2 | inclusion level for SAMPLE_2 replicates (comma separated) calculated from normalized counts |
IncLevelDifference | average(IncLevel1) - average(IncLevel2) |
可变剪接分析需要用到的是普通的RNA-seq数据,所以用我们前面介绍的STAR和hisat2都是可以的,mapping的参数通常也不需要特殊的设置。我们这里提供了一个hisat2的例子。
(1) install hisat, bamtools, samtools
hisat 下载后解压到当前目录下,另外两个软件在 Docker 中已经装好
(2) 基因组和基因组注释
注意gtf文件的坐标应当和fasta文件是对应的
(3) 下载原始数据
(4) now your working directory looks like this
(5) make hisat index
(6) mapping
为了鉴定 CUGBP1 对 mRNA isoform 的调控,科学家在 C2C12 小鼠成肌细胞(myoblast)中分别表达空载体(SRR065546)和含有干扰 CUGBP1 的 shRNA 的载体(SRR065547)。请同学们至该链接中Files needed by this Tutorial中的清华云Bioinformatics Tutorial / Files路径下的相应文件夹中下载 .bam
输入文件(只含有 map 到 X 染色体的 reads),探索在 X 染色体上存在 differential alternative splicing 的基因。(需要上交代码和输出结果中所有以 .MATS.JCEC.txt
结尾的文件)
阅读文献("rMATS: Robust and Flexible Detection of Differential Alternative Splicing from Replicate RNA-Seq Data"),简要解释rMATS是如何对PSI(percentage spliced in)的组间差异进行统计检验的(只需解释Unpaired Replicates的情形即可)。
rMATS is introduced in "rMATS: Robust and Flexible Detection of Differential Alternative Splicing from Replicate RNA-Seq Data" in PNAS
目前已有大量的工具可以用于可变剪接的分析。读者可参考以下文献,探索其他的工具: