从这一点看,用户在执行多序列比对时有很多选择的自由,举例来说,在Multiple Alignment Parameters下,用户可以实际空位开放和扩展的罚分,指出在组建辅助树时分歧到什么程度证明可以跳过一个序列,选择一个分值矩阵(BLOSUM或PAM),并且可以选择当一个亲水残基出现(或缺失)在一个特异位点时,是否要执行特异性罚分,如果需要,要罚多少分。在Pairwise Alignment Parameters下,用户可以调整用于慢比对和快比对的罚分和窗口大小。因为在这个例子中,我们没有可以用来指示我们改变比对参数的任何信息,因此只有选择选项1(”Do complete multiple alignment now”)。选择选项1后,程序会在屏幕上显示构件辅助树的过程,然后开始真正的所序列比对。
CLUSTA W结束时,会显示最终的比对结果,上述的例子的结果显示在图8.1中。在比对下方,一些位点被标记为星号或圆点,这些标记分别显示这些残基在序列中是绝对或是高度保守的。如果返回的比对出现太多的空位或是不考虑这些蛋白的任何已知信息,用户就可以再修正参数,然后返回程序,看它是否影响最终的比对。
CLUSTAL W (1.60) multipls sequence alignment
hum-U1A ------MAVPETRPNHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRSLKMRGQ
mse-U1A MATIATMPVPETRANHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRIMKMRGQ
xla-U1A ------MSIQEVRPNNTIYINNLNEKIKKDELKKSLYAIFSQFGQILDELVSRNLKMRGQ
dme-U1A ---------MEMLPNQTIYINNLNEKIKKEELKKSLYAIFSQFGQILDIVALKTLKMRGQ
* * *************.****************** . . .*****
hum-U1A AFVIFKEVSSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTFVERDRKR-EKRKP
mse-U1A AFVIFKEVTSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTYVERDRKR-EKRKP
xla-U1A AFVIFKETSSATNALRSMQGFPFYDKPMRIQYSKTDSDIIAKMKGTFVERDRKRQEKRKV
dme-U1A AFVIFKEIGSASNALRTMQGFPFYDKPMQIAYSKSDSDIVAKIKGTFKERPKKVKPPKPA
******* **.****.***********.* *.*.****.**.***. ** .* .
hum-U1A KSQETPATKKAVQGGGATPVVGAVQGPVPGMPPMTQAPRIMHHMPGQPPYMPPPGMIPPP
mse-U1A KSQETPAAKKAVQGGAAAPVVGAVQ-PVPGMPPMPQAPRIMHHMPGQPPYMPPPGMIPPP
xla-U1A KVPEVQGVKNAMPGAALLPGVPGQMAAMQDMPGMTQAPRMMH-MAGQAPYMHHJPGMPPP
dme-U1A PGTDEKKDKKKK-----------------------------------------------P
. * *
hum-U1A GLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILFLTNLPEETNELMLSMLFNQFPG
mse-U1A GLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILELTNLPEETNELMLSMLFNQFPG
xla-U1A GMAPGQMPPGGMPHGQLMPGQMAPMQPISENPPNHILFLTNLPEETNELMLSMLFNQFPG
dme-U1A SSAENSNP-----------------NAQTEQPPNQILFLTNLPEETNEMMLSMLFNQFPG
* . * . .*.***.*************.***********
hum-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKK
mse-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKK
xla-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARESLQGFKITQSNSMKISFAKK
dme-U1A FKEVRLVPNRHDIAFVEFTTELQSNAAKEALQGFKITPTHAMKITFAKK
********.********* .*.*..**...******* ..***.****
图8.1、 以四种 U1A 序列为一系列的输入序列,使用CLUSTAL W多序列比对程序后得到的比对结果。保守性极高的残基位置由星号标记在序列下方的相应位置,保守性稍低的残基由打点标记出来。
MultiAlin
MultAlin方法也是基于用一系列双重比对开始的思想,然后基于双重比对的打分值进行一个分层次的聚类。当序列都分成类后,开始进行多序列比对,计算出多序列比对中的两个序列比对的新值,基于这些新值,重新构建一棵树。这个过程不断进行,直到分值不在上升,此时所序列比对也就结束了。
MultAlin可以在INRA Toulouse的一个环球网点上很容易地执行,要比对的序列按照FASTA的格式被粘贴到一个序列输入框内,然后从一系列下拉菜单中,用户定义适当的参数,比如输出格式,可选的输入格式,引用的分值矩阵以及空位开放和扩展罚分的分值。大多数用户只会根据输入序列的远近关系,选择不同的分值矩阵。然后,序列被提交到服务器上,当多序列比对返回时,会计算一个一致序列并显示在比对的下方。举例来说,如图8.1所示的用CLUSTAL W比对的同样的序列被提交给MultAlin服务器,接受缺省的比对参数,其结果如图8.2所示,在一致序列中,所有序列都匹配的残基相应的位置用此残基的大写字母表示,大多数都匹配的用小写字母表示,同样地,符号!、$、%和#分别表示保守取代,具体含义如图8.2上方的图例。
很明显,用两种方法分别得到的比对结果并不完全一样。主要区别在于CLUSTAL W在果蝇序列中开放了两个长度超过10的空位,而MultAlin只开放了一个长空位,而且,MultAlin可以得到比CLUSTAL W多20个完全相同残基的排队,当然,这并不以为这一种方法比另外一种方法优越,这有要重提本书的一个不便的话题,即从输入序列的性质出发,应用不同的方法会得到不同程度的成功。警慎的用户会选择若干个工具同时使用,并且对最终的比对结果作手工修正以期达到最佳效果。
模体和样式
前面叙述的方法对于多序列比对极为有用,但是用户必须实现搜集好独立的输入序列,要么通过一系列的BLAST或其它的数据库搜索,要么在实验室里直接作出决定。但是,有太多的方法可以获取一个单独的序列,并且基于此序列中的任何模体或样式,返回所有的蛋白质家族,完成某个特异方法所定义的最佳比对。很多时候,这些方法所揭示的距离关系并非从例行的标准的数据库搜索中轻易获取。在这一部分,我们讨论两种方法,都是搜索特殊数据库以获取序列的模体和样式的,当然也是两种从最少的序列信息中进行蛋白质家族分类的强有力的方法。
ProfileScan
基于经典的头文件分析的Gribskov方法,ProfileScan使用一种称为pfscan的方法寻找一个蛋白质或核酸的查询序列同一个头文件库的相似性,因此,在搜索中需要有两个头文件库:第一个是PROSITE,一个ExPASy数据库,通过使用模体和序列样式(诸如指纹)将生物学意义重大的位点收集分类;第二个是Pfam ,收集了蛋白质结构域家族,与其它收集方法有很大不同的是,最初的蛋白质结构域的比对完全是有手工完成的,而不是依靠自动化的处理方法,正因为这样,Pfam只拥有500多条款目,但这些款目的质量极好。
基于PROSITE和Pfam的搜索可以通过访问ProfileScan的主页完成,她只需要一条简单的输入序列(用文本格式),或者一个标号,比如一个SWISS-PROT ID。用户可以选择搜索的敏感度,选择返回显著的匹配或者所有匹配,甚至包括边界的情况。为了说明输出的格式,我们现在向PROSITE系统提交人类的热休克诱导蛋白的序列作一次搜索:
normalized taw from to Profile | description
355,9801 41556pos 6 - 612 PF00012 | HSP70 Heat shock hsp70 protein
真正返回的PROSITE条目显得并不希奇,输出里含有值得注意的分值,这个前期加工(raw)的分值就是真正由搜索时使用的打分矩阵计算出来的,更信息化的数字是“normalized”,即N值,N值通常给出了用户在一个已知大小的数据库中可以寻找到的可能的匹配的数目,基本上来说,N值越大,偶然发生的命中几率就越小。举例来说,如果N值为355,偶然命中的几率只有1.94Х10-349。数字“from”和“to”只是显示出查询序列和匹配的头文件重叠的位点。
上一篇:序列比对和数据库搜索 下一篇:系统发育分析
共4页: 上一页 [1] 2 [3] [4] 下一页