使用PAUP中提供的核苷酸取代模型的一个子集,尽管它允许使用者自行指定参数数值。现在使用的MOLPHY缺少一个自引导选项,也不能包容位点内部的速率差异性。
PAML
PAML(Yang et al., 1996)是一个共享软件包(见本章结尾的列表),能够进行ML模型的建立和进化树的建立,能够进行Bayesian进化树的建立,能够进行模拟实验,能够进行基于似然方法的进化树的分析,能够进行进化树评估以及数据和进化树的统计。这个软件包已经在Macintosh 68K和PowerPC计算机上编译通过,还有一个非编译的Unix版本(GNU gcc或者Sun ANSI C)。对于密码子数据和氨基酸数据,这个程序提供了最详细的和最灵活的参数指定和评估方案。对于核苷酸数据(BASEML和BASEMLG),取代模型的范围同PAUP的一样广泛,可能包括了所有值得考虑的模型。PAML执行不额外的模型:相邻位点的速率相关性(自动离散�gamma模型)和一个多基因模型,这个模型允许对每一个基因指定取代模型。后者对于分析来自于不同基因(在不同约束下进化)的混合数据非常有用。下列步骤可能很有用:受限用PAUP进行ML进化树的建立,然后转向PAML,评估是否加入这些参数以改善似然值。PAML还包括一个在非静态条件下(序列之间的碱基频率变化很大)建立进化树的似然方法,但是对于超过四个序列的系统,这个方法被认为是不实用的。CODONML程序对于评估密码子频率、每一个密码子位置上的碱基频率以及每一个(非)同义位点上的(非)同义取代的数目非常有用。一个受到限制的PAML特色是能够从数据集中把包含一个空位的所有位点或者丢失的数据分值(不允许存在IUPAC模糊密码)排除出去。当分类群数目增加时,一个给定位点至少要达到的似然分值也随之增加;因此这个限制要冒一定的风险,很可能会把很有用的数据也切除掉。同时,PAML中的进化树搜索算法也受到MOLPHY中采用的不严格的星型分解方法的限制。因此,必须采用多重搜索。
一些简单的实际的考虑
- 不管听起来多么荒谬,到目前为止,在进行系统发生的推断分析中,最重要的因素不是进行系统发生推断所采用的方法,而是输入数据的质量。数据选择的重要行以及尤其是比对过程的重要性都不能过高估计。即使是最复杂的系统发生推断方法都不能校正输入数据的错误。
- 从尽可能多的角度观察数据。使用三种主要方法(距离方法,最大节约方法,最大似然方法)中的每一个,然后比较它们所建立的进化树的一致性。同时,要清醒地意识到我们不能只是因为所有这三个方法产生了相同的进化树,就认为已经达到了相对于真实系统发育的一个较好的评估。不幸的是,由不同方法得到的结果的一致性并不能必然地意味着结果就是统计显著的(或者代表这真实的系统发生史),因为达到一致性的因素很多。
上一篇:多序列比对的实际应用 下一篇:利用蛋白质序列的预测方法
共45页: 上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] 32 [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] 下一页