)。这些方法包括Wagner距离方法和亲近方法(距离转化方法);包括Lake的不变式方法(一个基于特征符的方法,它选择的拓扑结构包含一个意义重大的正数以支持颠换);包括Hadamard结合方法(一个精细的代数方阵方法,对距离数据或者观察到的特征符进行修正);包括裂解方法(这个方法决定在数据中应该支持哪一个基于距离的可选的拓扑结构)。四重奏迷惑(Quartet puzzling)方法可以被ML建树方法所应用,这个算法相对而言是个较快的进化树搜索算法。
确定树根
这里所描述的建树方法所产生的都是无跟树(也就是说,进化树没有进化的极性)。为了评估进化假说,通常必须要确定进化树的树根。确定系统发育进化树的树根并不是一个简单的小问题(Nixon and Carpenter, 1993)。
对于序列数据,如果你接受一个分子钟,那么树根总是出现在横跨整个进化树的最长跨距的中点(Weston, 1994)。分子进化是否有真正意义上的分子钟,仍然是个有争议的问题(Li, 1997),但是不管树根在什么地方,绝大多数基因进化树都显示了非分子钟的行为。因此,通常都是使用外在的证据来确定树根究竟放在何处,也就是说,要决定这个进化树通过什么位置同外围的系统发育集团相连接;这些外围集团可能是那些与被分析的物种/序列没有最相近的共同祖先的任意的物种/序列。但是外围集团的树根确定问题将其推入一个两难的困境之中:同内部集团很相近的外部集团很可能只是内部集团的一部分,只是被错误地排除在外了。一个明显距离很远的外围集团(比方说,分析植物时用到的一个真菌种)很可能会拥有一个分歧非常大的序列,以至于把这个序列同内部集团放在一起将要受到长树枝效应的影响(见上)。
一个确定树根的聪明一点的办法就是分析时加入一个复制的基因(Baldauf et al., 1996; Lawson et al., 1996)。如果来自于绝大多数物种或者所有物种的所有的平行基因在分析时都被包含进去,那么从逻辑上我们就可以把进化树的树根定位于平行基因进化树的交汇处,当然要假定在所有进化树中都没有长树枝问题。
评估进化树和数据
现在已经有一些程序可以用来评估数据中的系统发育信号和进化树的健壮性(Swofford et al., 1997)。对于前者,最流行的方法是用数据信号和随机数据作对比实验(偏斜和排列实验);对于后者,可以对观察到的数据重新取样,进行进化树的支持实验(非参数自引导和对折方法)。似然比例实验可以对取代模型和进化树都进行评估。
随机进化树(偏斜实验)
模拟研究表明,通过随机的数据集所产生的随机的MP进化树的长度的分布是对称的,但是使用系统发育信号的数据集,其分布将是不对称的(图9.9; Hillis and Huelsenbeck, 1992)。在偏斜实验中,g1统计的临界值随着分类群数目的不同和序列中位点的不同而不同。这个实验并不评估一个特定的拓扑结构的可靠性,而且这个实验对其它的随机数据集中所呈现的信号都敏感,哪怕只是很少的一点。如果数据很明显地支持某些分组,而这些分组中的分类群被有选择地删除,那么这个实验可以用来决定系统发育信号是否还保留着,当然至少要为测试提供10种不同的特征符和5个分类群。PAUP
上一篇:多序列比对的实际应用 下一篇:利用蛋白质序列的预测方法
共45页: 上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] 18 [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] 下一页