6.3.Chimeric RNA
本章介绍如何通过RNA-seq找到可能的Chimeric RNAs。
1) Background
Chimeric RNA, sometimes referred to as a fusion transcript, is composed of exons from two or more different genes that have the potential to encode novel proteins. These RNAs are different from those produced by conventional splicing as they are produced by two or more gene loci.
Chimeric RNA的产生来源包括两种可能的融合,1)两段DNA的融合(Gene Fusion); 2)两条RNA剪接(trans-splicing) 而成。
2) Software
2a) Install STAR-Fusion
需要挂载文件ctat_genome_lib_build_X_docker.zip,ref_genome.fa.star.idx.zip,请从清华云下载,具体地址请看这里。。
3) Running STAR-Fusion
STAR-Fusion可以直接以Fastq为输入文件进行融合基因分析;也可以使用STAR的Chimeric.out.junction文件作为STAR-Fusion的输入文件。
下面分别介绍使用这2种不同输入文件进行分析的方法。
3a) Method 1. Input junction file
使用STAR将Fastq比对到参考基因组上,输出Chimeric.out.junction文件:
这步需要大量的内存,建议直接跳过。可以在集群中运行这步。
以Chimeric.out.junction为输入文件,用STAR-Fusion进行融合基因分析
3b) Method 2. Input fastq file
由于STAR运行时会占用较大内存(RAM),约20~30G;如果STAR-Fusion加了--FusionInspector validate
参数可能会使内存总占用达到~40G,因此当我们从fastq开始使用STAR-fusion分析时需要合理控制并行运行的STAR-Fusion任务数量。
4) Utility
在本示例中,我们使用STAR-Fusion进行分析, STAR-Fusion是一款利用RNA-Seq数据检测人类融合基因的软件,STAR-Fusion提供了Docker镜像,以方便用户使用。
如果您不使用Docker镜像而是自行安装,请查看STAR-Fusion的安装指南。
STAR-Fusion的GitHub主页 有详细的软件使用方法说明
Brian J. Haas, et al. STAR-Fusion: Fast and Accurate Fusion Transcript Detection from RNA-Seq. bioRxiv, 2017.
其他可以用于分析融合基因的软件有:Prada, FusionCatcher, SoapFuse, TophatFusion, DISCASM/GMAP-Fusion。
Download reference files for STAR-Fusion
在寻找chimeric RNA时,我们还需要从Broad Institute数据库网站下载STAR-Fusion所需要的参考基因组与注释文件,选择“plug-n-play”压缩文件进行下载。下载地址如下:
https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/
下载后将其命名为CTAT_resource_lib.tar.gz ,解压。
Last updated