# 2.Conservation Analysis

本节中，我们学习用[MEGA](http://www.megasoftware.net/)这个桌面软件对蛋白序列进行多序列比对(MSA, multiple sequence alignment)，再从MSA出发构建系统发生树。

## 0) Files Needed <a href="#files" id="files"></a>

直接下载

* 本章不需要使用docker，所用到的文件可以直接从 [**Files needed** ](https://courses.ncrnalab.org/files)中的**Files/** 路径下的相应文件夹中下载所需要的文件。

## 1) Pipeline

![](https://4115668567-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LPVsf5VZbQ7h14X29qW%2F-LR0fH-Iiqi0C6G2aRQN%2F-LPVvGKQtWisZ26Aibv6%2Fconservation-0-pipelins.png?generation=1541921385938964\&alt=media)

## 2) Data Structure

### 2a) getting software & data

* 程序下载与安装：进入 [MEGA官方网站](http://www.megasoftware.net/) ，分别下载并安装与计算机操作系统（MacOS、Windows、Linux等）相应的软件版本。目前推出了MEGA7.0版本，本节主要介绍这种软件最新版本构建系统进化树的方法。
* 准备材料：按照 [0) Files Needed ](#files)所示下载已经准备好的拟南芥SWEET家族Protein序列的fasta格式文件，“clustal.fa”。

### 2b) Inputs

| Format | Description    | Notes            |
| ------ | -------------- | ---------------- |
| fasta  | 多个蛋白序列或核酸序列的集合 | 用于进行序列比对分析       |
| mega   | MEGA软件进行序列分析结果 | 用于MEGA软件系统发育树构建 |

### 2c) Outputs

| Format | Description     | Notes                       |
| ------ | --------------- | --------------------------- |
| mega   | MEGA软件进行序列分析的结果 | 用于MEGA软件系统发育树构建            |
| EMF    | 发育树导出格式之一       | 独立的格式，可以保持图形精度              |
| PNG    | 发育树导出格式之一       | 位图文件格式，图片存在压缩，可用多种浏览或编辑软件打开 |
| TIFF   | 发育树导出格式之一       | 文图文件格式，印刷常用的图像文件格式          |
| PDF    | 发育树导出格式之一       | 常用的文档格式                     |

## 3) Running Steps

MEGA7.0分析流程如下

### 3a) Open MEGA program

双击MEGA程序图标，打开程序，如图3-1所示。

![图3-1 MEGA程序主界面](https://4115668567-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LPVsf5VZbQ7h14X29qW%2F-LPVv7obRlTivTDgBNhr%2F-LPVvGKVM3pB-ODGD6qk%2Fconservation-1.png?generation=1540298186498938\&alt=media)

### 3b) Open sequence (fasta) files

点击“File”菜单，选择“open a file/session···“，在对话框中找到准备好的 `clustal.fa` 文件，打开，出现对话框（如图3-2所示），选择“align”进行比对，打开序列比对窗口（如图3-3所示）。

![图3-2 程序设置对话框](https://4115668567-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LPVsf5VZbQ7h14X29qW%2F-LPVv7obRlTivTDgBNhr%2F-LPVvGKXeJLtIXRRAUDV%2Fconservation-2.png?generation=1540298186487374\&alt=media)

![图3-3 多序列分析窗口](https://4115668567-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LPVsf5VZbQ7h14X29qW%2F-LPVv7obRlTivTDgBNhr%2F-LPVvGKZhwF5IjrG4DCS%2Fconservation-3.png?generation=1540298186536291\&alt=media)

### 3c) Align the sequences

选中所有序列，选择 `Alignment` 菜单中 `Align by ClustalW` 选项（如图3-4 所示），用ClustalW程序进行多序列比对，弹出参数设置对话框（如图3-5 所示），使用默认参数，按“OK”键开始比对。比对结束后，选择 `Data` 菜单中 `Export Alignment` -> `MEGA format` 选项（如图3-6 所示），将多序列比对结果导出为MEGA格式保存，保存为 `clustal.meg` 备用，关闭序列比对窗口。

![图3-4 多序列比对分析窗口](https://4115668567-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LPVsf5VZbQ7h14X29qW%2F-LPVv7obRlTivTDgBNhr%2F-LPVvGKax3v3bd6jizE_%2Fconservation-4.png?generation=1540298186542538\&alt=media)

![图3-5 多序列比对参数设置对话框](https://4115668567-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LPVsf5VZbQ7h14X29qW%2F-LPVv7obRlTivTDgBNhr%2F-LPVvGKczMWehxbvGlco%2Fconservation-5.png?generation=1540298186557899\&alt=media)

![图3-6 多序列比对结果保存窗口](https://4115668567-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LPVsf5VZbQ7h14X29qW%2F-LPVv7obRlTivTDgBNhr%2F-LPVvGKel4PqO12b26Ik%2Fconservation-6.png?generation=1540298186530801\&alt=media)

### 3d) Analyze the Plylogenetic Tree

回到MEGA主窗口，选择“Phylogeny”按钮，从中选择构建系统发育树的方法，这里以最邻近法为例，进行介绍（如图3-7 所示）。打开前一阶段生成的clustal.meg，弹出“Anaylsis Preferences”对话框（如图3-8 所示），可以对发育树分析的一些参数进行设置。通常情况下，我们修改“Test of Phylogeny”选项，改为“Bootstrap method”方法，然后修改“No. of Bootstrap Replication”为1000，即重抽样的重复数为1000.其他设置均为默认。

![图3-7 序列比对结果分析窗口](https://4115668567-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LPVsf5VZbQ7h14X29qW%2F-LPVv7obRlTivTDgBNhr%2F-LPVvGKgkRlZ-ekr5Le8%2Fconservation-7.png?generation=1540298186551783\&alt=media)

![图3-8 发育树构建对话框](https://4115668567-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LPVsf5VZbQ7h14X29qW%2F-LPVv7obRlTivTDgBNhr%2F-LPVvGKiAqTYZlvgY276%2Fconservation-8.png?generation=1540298186774649\&alt=media)

> BOOTSTRAP值即自展值，可用来检验所计算的进化树分支可信度。Bootstrap几乎是构建系统进化树一个必须的选项。一般Bootstrap的值>70%，则认为构建的进化树较为可靠。如果Bootstrap的值太低，则有可能进化树的拓扑结构有错误，进化树是不可靠的。

### 3e) Export customized results and figures

程序运行结束后，弹出“TreeExplorer”窗口（如图3-9 所示），窗口内显示构建的发育树。可以通过“View”菜单下的子菜单，对发育树进行修改。例如“view>option”菜单（图3-10）所示，可以设置不同类型的发育树的枝长，间距，标签的类型和颜色等。最后，将设置完成的发育树，通过“Image”菜单，可以导出EMF、TIFF、PNG或PDF格式（如图3-11所示）。

![图3-9 “TreeExplorer”窗口](https://4115668567-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LPVsf5VZbQ7h14X29qW%2F-LPVv7obRlTivTDgBNhr%2F-LPVvGKkEOS12Mt2xMsX%2Fconservation-9.png?generation=1540298193082630\&alt=media)

![图3-10 发育树视图效果参数设置窗口](https://4115668567-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LPVsf5VZbQ7h14X29qW%2F-LPVv7obRlTivTDgBNhr%2F-LPVvGKmfdW2BjwyIGOd%2Fconservation-10.png?generation=1540298186493263\&alt=media)

![图3-11 PDF格式保存效果](https://4115668567-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LPVsf5VZbQ7h14X29qW%2F-LPVv7obRlTivTDgBNhr%2F-LPVvGKocsa_8bXFoYFe%2Fconservation-11.png?generation=1540298186838660\&alt=media)

## 4) Teaching Animation <a href="#conservation-gif" id="conservation-gif"></a>

另外，我们为上文的分析流程制作了动画，如下所示：

### 4a) Import sequence (fasta) files

![](https://4115668567-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LPVsf5VZbQ7h14X29qW%2F-LPVv7obRlTivTDgBNhr%2F-LPVvGKqIyVZo1GxPFnZ%2Fconservation-import-fasta.gif?generation=1540298186885804\&alt=media)

### 4b) Align the sequences

![](https://4115668567-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LPVsf5VZbQ7h14X29qW%2F-LPVv7obRlTivTDgBNhr%2F-LPVvGKsElbq_mBGzLn3%2Fconservation-alignment.gif?generation=1540298189203590\&alt=media)

### 4c) Phylogenetic Tree

![](https://4115668567-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LPVsf5VZbQ7h14X29qW%2F-LPVv7obRlTivTDgBNhr%2F-LPVvGKuAiAAlHVvsRl8%2Fconservation-tree-construction.gif?generation=1540298187433920\&alt=media)

### 4d) Export results and figures

![](https://4115668567-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LPVsf5VZbQ7h14X29qW%2F-LPVv7obRlTivTDgBNhr%2F-LPVvGKwFInz8_w75pVO%2Fconservation-configuration-and-export.gif?generation=1540298187967959\&alt=media)

## 5) Homework

* 按照 [0) Files Needed ](#files)所示下载准备好的作业文件（NPF.cds.fa），里面是几种代表性作物的NPF家族部分基因的CDS序列集合。请根据操作流程的指示，使用距离法、最大简约法和最大似然法进行系统发育树（1000 Bootstrap）的构建，并以PDF或图片的形式保留最终结果。(如果最大似然树计算速度比较慢，可以减少Bootstrap的次数,如100-200次)。(提示:对于coding sequence，自然选择是直接作用在蛋白序列上的，我们多数情况下也更关注蛋白水平的保守性。我们提供的是核苷酸序列，按codon，或者说按CDS翻译出的蛋白序列来构建MSA相比于直接align核苷酸序列是更合理的做法。)
* 自行查阅相关资料，回答下列问题： （1）试结合最终结果，解释original tree和Bootstrap consensus tree之间的区别； （2）从构建原理的角度，简单解释不同构建方法所需时间有较大差异的原因。 （3）以同样的方法分析同样的数据，所产生的树有可能存在不同吗？为什么？

## 6) More Reading

### Tools for evolutionary analysis

* MEGA由于使用方便，是一种比较受欢迎的进化分析软件。
* 多序列比对和系统发生树的构建是两个相对比较独立的问题，MEGA为了使用上的方便把两种功能整合到了一起。
* 目前多序列比对和构建系统进化树的软件和算法都有很多，以下列举了一些常用软件

**多序列比对**

* [clustalw2](http://www.ebi.ac.uk/Tools/clustalw2/)
* [muscle](http://www.ebi.ac.uk/Tools/muscle/)
* [t-coffee](http://www.ebi.ac.uk/Tools/t-coffee/)
* [MAFFT](http://www.ebi.ac.uk/Tools/mafft/)

**分子进化与系统发育**

* [MEGA](http://www.megasoftware.net/): 美国宾夕法尼亚州立大学Masatoshi Nei开发的分子进化遗传学分析软件
* [PHYLIP](http://evolution.genetics.washington.edu/phylip.html): 美国华盛顿大学Felsenstein开发的一套集成的进化分析工具
* [PAML](http://abacus.gene.ucl.ac.uk/software/paml.html): 英国University College London开发，采用最大似然法构树和分子进化模型
* [PAUP](http://paup.csit.fsu.edu/): 国际上最通用的系统树构建软件之一，美国Smithsonion Insitute 开发
* [RAxML](http://sco.h-its.org/exelixis/web/software/raxml/index.html): 大量数据的最大似然法建树常用方法
* [MrBayes](http://mrbayes.sourceforge.net/) : 基于贝叶斯方法的建树工具

## 7) Teaching Videos

* see Videos in the [**Files needed** ](https://courses.ncrnalab.org/files)
