2.Conservation Analysis
本节中,我们学习用MEGA这个桌面软件对蛋白序列进行多序列比对(MSA, multiple sequence alignment),再从MSA出发构建系统发生树。

0) Files Needed

直接下载
  • 本章不需要使用docker,所用到的文件可以直接从该链接Files needed by this Tutorial中的清华云的Bioinformatics Tutorial / Files路径下的相应文件夹中下载所需要的文件。

1) Pipeline

2) Data Structure

2a) getting software & data

  • 程序下载与安装:进入 MEGA官方网站 ,分别下载并安装与计算机操作系统(MacOS、Windows、Linux等)相应的软件版本。目前推出了MEGA7.0版本,本节主要介绍这种软件最新版本构建系统进化树的方法。
  • 准备材料:按照 0) Files Needed 所示下载已经准备好的拟南芥SWEET家族Protein序列的fasta格式文件,“clustal.fa”。

2b) Inputs

Format
Description
Notes
fasta
多个蛋白序列或核酸序列的集合
用于进行序列比对分析
mega
MEGA软件进行序列分析结果
用于MEGA软件系统发育树构建

2c) Outputs

Format
Description
Notes
mega
MEGA软件进行序列分析的结果
用于MEGA软件系统发育树构建
EMF
发育树导出格式之一
独立的格式,可以保持图形精度
PNG
发育树导出格式之一
位图文件格式,图片存在压缩,可用多种浏览或编辑软件打开
TIFF
发育树导出格式之一
文图文件格式,印刷常用的图像文件格式
PDF
发育树导出格式之一
常用的文档格式

3) Running Steps

MEGA7.0分析流程如下

3a) Open MEGA program

双击MEGA程序图标,打开程序,如图3-1所示。
图3-1 MEGA程序主界面

3b) Open sequence (fasta) files

点击“File”菜单,选择“open a file/session···“,在对话框中找到准备好的 clustal.fa 文件,打开,出现对话框(如图3-2所示),选择“align”进行比对,打开序列比对窗口(如图3-3所示)。
图3-2 程序设置对话框
图3-3 多序列分析窗口

3c) Align the sequences

选中所有序列,选择 Alignment 菜单中 Align by ClustalW 选项(如图3-4 所示),用ClustalW程序进行多序列比对,弹出参数设置对话框(如图3-5 所示),使用默认参数,按“OK”键开始比对。比对结束后,选择 Data 菜单中 Export Alignment -> MEGA format 选项(如图3-6 所示),将多序列比对结果导出为MEGA格式保存,保存为 clustal.meg 备用,关闭序列比对窗口。
图3-4 多序列比对分析窗口
图3-5 多序列比对参数设置对话框
图3-6 多序列比对结果保存窗口

3d) Analyze the Plylogenetic Tree

回到MEGA主窗口,选择“Phylogeny”按钮,从中选择构建系统发育树的方法,这里以最邻近法为例,进行介绍(如图3-7 所示)。打开前一阶段生成的clustal.meg,弹出“Anaylsis Preferences”对话框(如图3-8 所示),可以对发育树分析的一些参数进行设置。通常情况下,我们修改“Test of Phylogeny”选项,改为“Bootstrap method”方法,然后修改“No. of Bootstrap Replication”为1000,即重抽样的重复数为1000.其他设置均为默认。
图3-7 序列比对结果分析窗口
图3-8 发育树构建对话框
BOOTSTRAP值即自展值,可用来检验所计算的进化树分支可信度。Bootstrap几乎是构建系统进化树一个必须的选项。一般Bootstrap的值>70%,则认为构建的进化树较为可靠。如果Bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。

3e) Export customized results and figures

程序运行结束后,弹出“TreeExplorer”窗口(如图3-9 所示),窗口内显示构建的发育树。可以通过“View”菜单下的子菜单,对发育树进行修改。例如“view>option”菜单(图3-10)所示,可以设置不同类型的发育树的枝长,间距,标签的类型和颜色等。最后,将设置完成的发育树,通过“Image”菜单,可以导出EMF、TIFF、PNG或PDF格式(如图3-11所示)。
图3-9 “TreeExplorer”窗口
图3-10 发育树视图效果参数设置窗口
图3-11 PDF格式保存效果

4) Teaching Animation

另外,我们为上文的分析流程制作了动画,如下所示:

4a) Import sequence (fasta) files

4b) Align the sequences

4c) Phylogenetic Tree

4d) Export results and figures

5) Homework

  • 按照 0) Files Needed 所示下载准备好的作业文件(NPF.cds.fa),里面是几种代表性作物的NPF家族部分基因的CDS序列集合。请根据操作流程的指示,使用距离法、最大简约法和最大似然法进行系统发育树(1000 Bootstrap)的构建,并以PDF或图片的形式保留最终结果。(如果最大似然树计算速度比较慢,可以减少Bootstrap的次数,如100-200次)。(提示:对于coding sequence,自然选择是直接作用在蛋白序列上的,我们多数情况下也更关注蛋白水平的保守性。我们提供的是核苷酸序列,按codon,或者说按CDS翻译出的蛋白序列来构建MSA相比于直接align核苷酸序列是更合理的做法。)
  • 自行查阅相关资料,回答下列问题: (1)试结合最终结果,解释original tree和Bootstrap consensus tree之间的区别; (2)从构建原理的角度,简单解释不同构建方法所需时间有较大差异的原因。 (3)以同样的方法分析同样的数据,所产生的树有可能存在不同吗?为什么?

6) More Reading

Tools for evolutionary analysis

  • MEGA由于使用方便,是一种比较受欢迎的进化分析软件。
  • 多序列比对和系统发生树的构建是两个相对比较独立的问题,MEGA为了使用上的方便把两种功能整合到了一起。
  • 目前多序列比对和构建系统进化树的软件和算法都有很多,以下列举了一些常用软件
多序列比对
分子进化与系统发育
  • MEGA: 美国宾夕法尼亚州立大学Masatoshi Nei开发的分子进化遗传学分析软件
  • PHYLIP: 美国华盛顿大学Felsenstein开发的一套集成的进化分析工具
  • PAML: 英国University College London开发,采用最大似然法构树和分子进化模型
  • PAUP: 国际上最通用的系统树构建软件之一,美国Smithsonion Insitute 开发
  • RAxML: 大量数据的最大似然法建树常用方法
  • MrBayes : 基于贝叶斯方法的建树工具

7) Teaching Videos

  • PART II: Conservation Analysis (link)