# 4.Motif

## Table of Contents

* "motif"这个词一般指在一组蛋白或核酸序列中多次出现的局部序列模式。本教程中提到的motif主要是针对核酸序列来说的。
* 对核酸序列而言，蛋白调控因子(即转录因子和RNA结合蛋白)的结合位点在很多情况下会符合一定的序列模式。很多时候,分析核酸序列motif的目的是对调控因子结合的序列偏好性进行建模。
* 为了描述这种序列模式，一个常见的做法是假设我们考虑的motif是一个"fixed length, ungapped motif"，即motif由连续的几个核苷酸组成,且长度是固定的。这样我们就可以用每个位置4种核苷酸出现的频率(positional frequency matrix, PFM)对motif建模。我们这里把PFM称为核酸的"sequence motif"。PWM对真实情况进行了高度的简化，但也是实践中最常用的模型。
* RNA会形成复杂的三维结构，RNA结构会对它和蛋白因子的相互作用发挥直接的影响。有时同样的RNA序列，只有特定结构的context下，才能被RBP结合；也存在一些RBP主要识别RNA的结构模式而非序列模式的情况。针对这一问题，也有人开发出了一些工具，用比PFM更复杂的模型，在建模时考虑一些RNA的结构特性，希望能更好的描述RBP识别的模式。我们这里把这些模型统称为RNA的"structure motif"。
* 本章中我们将对Sequence Motif和Structure Motif的分析方法进行介绍。
* [4.1.Sequence Motif](https://book.ncrnalab.org/teaching/part-iii.-ngs-data-analyses/4.motif/sequence_motif)
* [4.2.Structure Motif](https://book.ncrnalab.org/teaching/part-iii.-ngs-data-analyses/4.motif/structure_motif)

## Teaching Video

* see Videos in the [**Files needed** ](https://courses.ncrnalab.org/files)[ ](https://book.ncrnalab.org/teaching/appendix/appendix-iv.-teaching#4-teaching-videos)
