4.Motif

Table of Contents

  • "motif"这个词一般指在一组蛋白或核酸序列中多次出现的局部序列模式。本教程中提到的motif主要是针对核酸序列来说的。
  • 对核酸序列而言,蛋白调控因子(即转录因子和RNA结合蛋白)的结合位点在很多情况下会符合一定的序列模式。很多时候,分析核酸序列motif的目的是对调控因子结合的序列偏好性进行建模。
  • 为了描述这种序列模式,一个常见的做法是假设我们考虑的motif是一个"fixed length, ungapped motif",即motif由连续的几个核苷酸组成,且长度是固定的。这样我们就可以用每个位置4种核苷酸出现的频率(positional frequency matrix, PFM)对motif建模。我们这里把PFM称为核酸的"sequence motif"。PWM对真实情况进行了高度的简化,但也是实践中最常用的模型。
  • RNA会形成复杂的三维结构,RNA结构会对它和蛋白因子的相互作用发挥直接的影响。有时同样的RNA序列,只有特定结构的context下,才能被RBP结合;也存在一些RBP主要识别RNA的结构模式而非序列模式的情况。针对这一问题,也有人开发出了一些工具,用比PFM更复杂的模型,在建模时考虑一些RNA的结构特性,希望能更好的描述RBP识别的模式。我们这里把这些模型统称为RNA的"structure motif"。
  • 本章中我们将对Sequence Motif和Structure Motif的分析方法进行介绍。
Copy link
Edit on GitHub