6.1.Alternative Splicing

  • 分析可变剪接的工具本质上还是在对基因表达进行定量,只不过在定量的过程中对不同的可变剪接事件进行了区分。

  • 我们前面已经介绍过,RNA-seq常见的分析一类是在基因水平上直接count有多少reads落在一个gene的exons对应的genomic interval上,如featureCounts;另一类是利用一些统计方法在给出转录本水平上的丰度估计,如cufflinks,Rsem等。

  • 类似的,用于可变剪接分析的工具也可以分为两类。一类是只考虑能确定的assign给一个可变剪接事件的reads,直接count对应splicing事件和retention事件的reads,然后计算它们的相对比例。我们这里主要介绍的rMATS就属于这类工具。另外一类工具基本上和cufflinks,Rsem这类工具使用的方法是相似的,但是针对可变剪接的分析提供了更多的功能,例如MISO

1) Pipeline

2) Data Structure

2a) getting software & data

方法1: 使用docker

  1. install software (already available in Docker,docker images的下载链接如附表所示)

    rMATS

  2. Get data (already available in Docker),我们使用 PRJNA130865 中的两个样本:

我们已经准备好注释`.gtf文件和map好的.bam 文件(仅包含 mapping 到 X 染色体上的部分),位于 Docker 中的 /home/test/alter-spl/input

如果希望从头做起,读者也可以点击上述相应链接下载原始的 FASTQ 文件; Mus musculus 的基因组注释文件可以从Ensembl下载: GRCm38/mm10

方法2: 自行下载和安装

  1. Install software:rMATS

  2. Download data: link;

2b) input

Format
Description
Notes

.bam

将样本中的 Reads 比对到参考基因组

-

.gtf

参考基因组注释文件

-

2c) output

Format
Description
Notes

many TSV

all possible alternative splicing (AS) events derived from GTF and RNA-seq

-

详细说明请参见 http://rnaseq-mats.sourceforge.net/rmats4.0.2/user_guide.htm#output

3) Running Steps

和之前章节一样,首先进入到容器:

以下步骤均在 /home/test/alter-spl/ 下进行:

3a) check read length

也就是说 read length 均为 35

3b) run

第二行指定输入和输出文件(夹)。 第三行是一些必需参数:

  • 这里我们的数据是 paired-end, 所以选择 -t paired

  • 根据第一步,我们指定 --readLength 35

3c) output

输出文件位于 output/ 中。

最重要的是以下两类文件:

  • AS_Event.MATS.JC.txt: evaluates splicing with only reads that span splicing junctions

  • AS_Event.MATS.JCEC.txt: evaluates splicing with reads that span splicing junctions and reads on target (striped regions on MATS home page figure)

其中,AS_Event 包含以下几种:

  1. A5SS: alternative 5' splice site

  2. A3SS: alternative 3' splice site

  3. SE: skipped exon

  4. MXE: mutually exclusive exons

  5. RI: retained intron

For example, A5SS.MATS.JC.txt includes alternative 5' splice site (A5SS) using only reads that span splicing junctions:

其中最重要的列意义如下:

IncFormLen

length of inclusion form, used for normalization

SkipFormLen

length of skipping form, used for normalization

P-Value

Significance of splicing difference between two sample groups. (Only available if statistical model is on)

FDR

False Discovery Rate calculated from p-value. (Only available if statistical model is on)

IncLevel1

inclusion level for SAMPLE_1 replicates (comma separated) calculated from normalized counts

IncLevel2

inclusion level for SAMPLE_2 replicates (comma separated) calculated from normalized counts

IncLevelDifference

average(IncLevel1) - average(IncLevel2)

4) Tips/Utilities

4a) 准备bam文件

可变剪接分析需要用到的是普通的RNA-seq数据,所以用我们前面介绍的STAR和hisat2都是可以的,mapping的参数通常也不需要特殊的设置。我们这里提供了一个hisat2的例子。

(1) install hisat, bamtools, samtools

hisat 下载后解压到当前目录下,另外两个软件在 Docker 中已经装好

(2) 基因组和基因组注释

注意gtf文件的坐标应当和fasta文件是对应的

(3) 下载原始数据

(4) now your working directory looks like this

(5) make hisat index

(6) mapping

5) Homework

  1. 为了鉴定 CUGBP1 对 mRNA isoform 的调控,科学家在 C2C12 小鼠成肌细胞(myoblast)中分别表达空载体(SRR065546)和含有干扰 CUGBP1 的 shRNA 的载体(SRR065547)。请同学们至该链接Files needed by this Tutorial中的清华云Bioinformatics Tutorial / Files路径下的相应文件夹中下载 .bam 输入文件(只含有 map 到 X 染色体的 reads),探索在 X 染色体上存在 differential alternative splicing 的基因。(需要上交代码和输出结果中所有以 .MATS.JCEC.txt 结尾的文件)

  2. 阅读文献("rMATS: Robust and Flexible Detection of Differential Alternative Splicing from Replicate RNA-Seq Data"),简要解释rMATS是如何对PSI(percentage spliced in)的组间差异进行统计检验的(只需解释Unpaired Replicates的情形即可)。

6) References

rMATS is introduced in "rMATS: Robust and Flexible Detection of Differential Alternative Splicing from Replicate RNA-Seq Data" in PNAS

目前已有大量的工具可以用于可变剪接的分析。读者可参考以下文献,探索其他的工具:

Last updated

Was this helpful?