6.2.APA (Alternative Polyadenylation)
Last updated
Last updated
可变多聚腺苷酸化(Alternative polyadenylatio,APA)指的是mRNA在polyA加尾时可能会选取不同的位置,这样就会产生不同的isoforms,每个isform 3' UTR的序列有所不同。APA是一种调控mRNA多样性,稳定性和翻译的普遍机制。
目前已有一些专门针对APA研究的测序方法(例如PAS-seq专门对转录本中基因组编码的序列和poly A的junction进行测序),不过基于常规的RNA-seq数据也可以进行一些APA的分析。
我们这里介绍的DaPar,就是一个从常规RNA-seq数据出发进行APA分析的工具。
DaPar假设每个转录本都存在一个proximal的poly A位点,一个distal的poly A位点,因而产生长短两种isoform。
DaPar假设长的isoform对应基因组注释的转录本末端,再根据3' UTR reads coverage的模式推断出APA的位点,进而估计出长短两种isoform的相对比例。
启动 6.2 APA, 6.3 Ribo-seq, 6.4 Structure-seq的 Docker,然后进入工作目录
在这一步骤中,DaPars_Extract_Anno.py
这个脚本从用户提供的bed文件中提取出3'UTR,把有注释的转录本末端当做distal poly A site。 我们可以通过下面一条命令实现:
注意这里的bed文件和我们前面提到的bed文件有所不同,确切的来说应该叫bed12文件。请参考http://genome.ucsc.edu/FAQ/FAQformat#format1给出的解释。
和bed文件一样,bed12文件每一行都对应一个genomic interval,特殊之处在于它还在10-12列注释出了这个genomic interval中的一些互不重合的sub regions。这样的形式就很适合描述一个转录本是由基因组上的哪些exons剪接形成的。
在我们这个例子中,hg19_refseq_whole_gene.bed
每一行都对应一个转录本,它所能反应的信息和常规的gtf/gff注释文件非常相似。
hg19_refseq_whole_gene.bed (bed12 format)
hg19_4_19_2012_Refseq_id_from_UCSC.txt
hg19_refseq_extracted_3UTR.bed
dapar要求我们提供一个包含输入输出及参数设置的配置文件。
configure_file
The format of the configure file is:
FDR_cutoff, PDUI_cutoff, Fold_change_cutoff → Pass filer (Y nor N)
运行示例文件,理解输出文件“DaPars_Test_data_All_Prediction_Results.txt”中每一列的含义。 (1)解释PDUI的含义; (2)写脚本过滤adjusted.P_val<=0.05,PDUI_Group_diff>=0.5, PDUI_fold_change>=0.59的作为diff-APA events,和Pass_filter为“Y“筛选出来的diff-APA events做比较。
如果使用singularity,需要安装scipy和singledispatch。命令如下:
然后再运行软件,命令如下: