4.2.Structure Motif
Last updated
Last updated
选择RNA structure motif discovery的输入序列的方法和RNA sequence motif discovery是完全一样的。
RNA structure motif discovery的应用场景相对更狭窄一些,目前也没有一个像MEME suite那样具有统治地位的工具。所以我们这里举了好几个例子。
本教程中实际使用的是BEAM这个工具,其他的软件我们也列出了相应的文章和说明文档,请有兴趣的同学自行了解。
BEAM的具体做法是先用RNA二级结构预测的软件(RNAfold, RNAstructure等)预测出RNA的二级结构,在按照这个工具自己的一套规则定义一套掺入了结构信息的一套新的字母表,把原来四个核苷酸的字符串编码成在这个新的字母表上同样长度的字符串。这样它就把structure motif discovery的问题转化成了sequence motif discovery的问题,而sequence motif discovery的问题是有很多well established的算法去解决的。
这个方法的好处在于简单,但是也有明显的局限性,因为把二维结构按人为定义的规则转化为少量字符组成的一维序列,总是会丢失很多信息。
如果使用docker,本节仍使用我们在sequence motif一节用到的docker容器
如果在P集群上使用singularity:
如果想使用P集群,又不想用singularity
可以使用/data/2022-bioinfo-shared/softwares
提供的工具
输入序列为/data/2022-bioinfo-shared/data/motif-analysis/test.fa
用RNAfold预测RNA二级结构。这里的".dbn"后缀意思是"dot-bracket notation",用点(dot,".")表示单链区域,括号(bracket,"("和")")表示互补配对。
".dbn"文件每三行为一个record,三行分别是以">"开头的序列id,序列,和dot-bracket notation表示的二级结构。dot-bracket notation后面空一格还会输出计算出的自由能。
BearEncoder.new.jar
这个java程序实现了把二级结构编码到新字母表上的过程。这个程序比较僵化,如果.dbn文件每一个record的第三行除了二级结构之外还有别的内容,就没法正确解析,所以我们第一行代码先把自由能一项给舍弃:
example output
RNApromo
software: RNApromo
GraphProt
software: https://github.com/dmaticzka/GraphProt
publication: 2014, Genome Biology,GraphProt: modeling binding preferences of RNA-binding proteins
RNAcontext
software: RNAcontext
publication: 2010, Plos Computational Biology,RNAcontext: A New Method for Learning the Sequence and Structure Binding Preferences of RNA-Binding Proteins
阅读2014,NAR,A novel approach to represent and compare RNA secondary structures这篇文章,简要描述BEAR encoder这个工具是怎样把二维结构编码到一维序列上的。
RNApromo这个工具是2008,PNAS,Computational prediction of RNA structural motifs involved in posttranscriptional regulatory processes这篇文章发表的。阅读文章,简要回答RNApromo和meme的区别在什么的地方?