2.Conservation Analysis
Last updated
Last updated
本节中,我们学习用MEGA这个桌面软件对蛋白序列进行多序列比对(MSA, multiple sequence alignment),再从MSA出发构建系统发生树。
直接下载
本章不需要使用docker,所用到的文件可以直接从 Files needed 中的Files/ 路径下的相应文件夹中下载所需要的文件。
程序下载与安装:进入 MEGA官方网站 ,分别下载并安装与计算机操作系统(MacOS、Windows、Linux等)相应的软件版本。目前推出了MEGA7.0版本,本节主要介绍这种软件最新版本构建系统进化树的方法。
准备材料:按照 0) Files Needed 所示下载已经准备好的拟南芥SWEET家族Protein序列的fasta格式文件,“clustal.fa”。
MEGA7.0分析流程如下
双击MEGA程序图标,打开程序,如图3-1所示。
点击“File”菜单,选择“open a file/session···“,在对话框中找到准备好的 clustal.fa
文件,打开,出现对话框(如图3-2所示),选择“align”进行比对,打开序列比对窗口(如图3-3所示)。
选中所有序列,选择 Alignment
菜单中 Align by ClustalW
选项(如图3-4 所示),用ClustalW程序进行多序列比对,弹出参数设置对话框(如图3-5 所示),使用默认参数,按“OK”键开始比对。比对结束后,选择 Data
菜单中 Export Alignment
-> MEGA format
选项(如图3-6 所示),将多序列比对结果导出为MEGA格式保存,保存为 clustal.meg
备用,关闭序列比对窗口。
回到MEGA主窗口,选择“Phylogeny”按钮,从中选择构建系统发育树的方法,这里以最邻近法为例,进行介绍(如图3-7 所示)。打开前一阶段生成的clustal.meg,弹出“Anaylsis Preferences”对话框(如图3-8 所示),可以对发育树分析的一些参数进行设置。通常情况下,我们修改“Test of Phylogeny”选项,改为“Bootstrap method”方法,然后修改“No. of Bootstrap Replication”为1000,即重抽样的重复数为1000.其他设置均为默认。
BOOTSTRAP值即自展值,可用来检验所计算的进化树分支可信度。Bootstrap几乎是构建系统进化树一个必须的选项。一般Bootstrap的值>70%,则认为构建的进化树较为可靠。如果Bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。
程序运行结束后,弹出“TreeExplorer”窗口(如图3-9 所示),窗口内显示构建的发育树。可以通过“View”菜单下的子菜单,对发育树进行修改。例如“view>option”菜单(图3-10)所示,可以设置不同类型的发育树的枝长,间距,标签的类型和颜色等。最后,将设置完成的发育树,通过“Image”菜单,可以导出EMF、TIFF、PNG或PDF格式(如图3-11所示)。
另外,我们为上文的分析流程制作了动画,如下所示:
按照 0) Files Needed 所示下载准备好的作业文件(NPF.cds.fa),里面是几种代表性作物的NPF家族部分基因的CDS序列集合。请根据操作流程的指示,使用距离法、最大简约法和最大似然法进行系统发育树(1000 Bootstrap)的构建,并以PDF或图片的形式保留最终结果。(如果最大似然树计算速度比较慢,可以减少Bootstrap的次数,如100-200次)。(提示:对于coding sequence,自然选择是直接作用在蛋白序列上的,我们多数情况下也更关注蛋白水平的保守性。我们提供的是核苷酸序列,按codon,或者说按CDS翻译出的蛋白序列来构建MSA相比于直接align核苷酸序列是更合理的做法。)
自行查阅相关资料,回答下列问题: (1)试结合最终结果,解释original tree和Bootstrap consensus tree之间的区别; (2)从构建原理的角度,简单解释不同构建方法所需时间有较大差异的原因。 (3)以同样的方法分析同样的数据,所产生的树有可能存在不同吗?为什么?
MEGA由于使用方便,是一种比较受欢迎的进化分析软件。
多序列比对和系统发生树的构建是两个相对比较独立的问题,MEGA为了使用上的方便把两种功能整合到了一起。
目前多序列比对和构建系统进化树的软件和算法都有很多,以下列举了一些常用软件
多序列比对
分子进化与系统发育
MEGA: 美国宾夕法尼亚州立大学Masatoshi Nei开发的分子进化遗传学分析软件
PHYLIP: 美国华盛顿大学Felsenstein开发的一套集成的进化分析工具
PAML: 英国University College London开发,采用最大似然法构树和分子进化模型
PAUP: 国际上最通用的系统树构建软件之一,美国Smithsonion Insitute 开发
RAxML: 大量数据的最大似然法建树常用方法
MrBayes : 基于贝叶斯方法的建树工具
see Videos in the Files needed
Format | Description | Notes |
---|---|---|
Format | Description | Notes |
---|---|---|
fasta
多个蛋白序列或核酸序列的集合
用于进行序列比对分析
mega
MEGA软件进行序列分析结果
用于MEGA软件系统发育树构建
mega
MEGA软件进行序列分析的结果
用于MEGA软件系统发育树构建
EMF
发育树导出格式之一
独立的格式,可以保持图形精度
PNG
发育树导出格式之一
位图文件格式,图片存在压缩,可用多种浏览或编辑软件打开
TIFF
发育树导出格式之一
文图文件格式,印刷常用的图像文件格式
发育树导出格式之一
常用的文档格式