演示方法
上述的比对方法对于寻找最佳比对这一点都很严格,但是它们的输出结果的阅读质量都不是太好,所以有必要从这些程序中得到输出结果,然后把结果输出到另外一些软件中去,使得多序列比对的结果可读性更好一些。这些演示方法通常都会让使用者更加容易地识别所有序列中精巧的序列样式,比通常显示的“一致序列”效果还好。
MacBoxShade
MacBoxShade(或者简写为MacBox),是VMS/UNIX应用程序BoxShade的一个Macintosh版本,它提供一个很简单的机制使得多序列比对结果形成一定的格式。MacBox只能读GCG MSF格式的比对文件,所以必须用其他程序(例如ReadSeq)把序列文件转化为它可以阅读的形式。虽然只支持一种输入格式,但是再输出上就有较多的选项了:这包括PostScript,支持PostScript打印机或者用PostScript形式浏览;还有PICT,缺省的Macintosh格式,可以输入到字处理或者图形处理软件中去。通过大量的简单对话框,用户可以指定色彩方案,给残基记数的形式,以及与计算一致序列有关的选项。
Sims和Groups是两个重要的对话框,控制了如何计算一致序列,两者的区别很细微但是十分重要。Sims对话框定义了什么样的残基之间相互相似,并且关系并非相反;Groups对话框允许确认离散的群体,再这些群体中,所有同一个群体中的残基都认为是相同的,就是说,如果一个群体被定义为拥有lysine,arginine和histidine,那么在一个比对中给定位点出现任何一个这样的残基都会被认为是匹配的。检测这两个对话框十分重要,因为用户希望用缺省值计算一致序列。
为了描述MacBox的使用,一定量的组蛋白H1序列和从酵母中得到的H1经过比对,并且被转化为MSF格式,这个MSF序列文件被MacBox打开,并且要求程序通过普通对话框打印一致序列。还是在同一个对话框中,显示一致序列的方法被改为BLU,意思是在一个给定位点,非保守位点用空格(blank)表示,保守残基用小写字母表示,相同残基用大写字母表示。要真正运行比对程序,可以从“Do it!”下拉菜单中选择“Display PICT”,会产生如图8.7的窗口,一致序列的表示法可以在普通对话框中改变成用户期望的形式。用户可以不象这里所作的根据所有序列的相似性留下阴影的形式,而是可以指定比对中的一个单个序列,然后根据其他序列同这个序列相似性的程度留下阴影。
对于没有Macintosh或者UNIX机器的用户来说,原始的BoxShade程序可以通过互联网访问,通过下拉菜单而不是上述的对话框。当然,那样是不可能选择色彩方案或者选择如何显示一个一致序列了,但是可以指定一致序列基于字母还是符号。
ALSCRIPT
ALSCRIPT是一个基于UNIX或者PC机平台的程序,它可以灵活地把多序列比对的输出结果格式化为PostScript格式,然后比对就可以在PostScript打印机上打印或者用PostScript浏览。ALSCRIPT的输入必须是如下三种格式之一:一个块文件,CLUSTAL W格式或者GCG格式;使用CLUS2BLC和MSF2BLC程序可以把其他格式转化为ALSCRIPT可以阅读的格式,这两个程序都在ALSCRIPT程序包中。ALSCRIPT在报告比对时提供了很好的灵活性:用户可以指定字体,部分比对的方框,选择阴影,增加文本识别,增加符号和行数以及颜色的选择。虽然ALSCRIPT本身不能产生或者编辑比对,但是它可以计算出一致序列并且用适当的方式显示匹配于一致序列的残基。正确使用程序可以揭示序列中的某些特征,比如电荷分布或者序列信号。
图8.8显示了一个ALSCRIPT命令文件格式的例子,命令文件被分解为两个逻辑部分,称为步骤1和步骤2。步骤1(Step1)命令控制了比对的总体面貌:字体型号,字体大小,记录定向以及颜色定义等等,步骤1还给出了输入文件(BLOCK_FILE, 块文件)的位置以及比对输出的写入文件(OUT_FILE, 输出文件)。步骤2 (Step2) 与比对的特定部分有关,比如改变同每一个序列相邻的标号,给特定的残基或者区域打上方框或阴影,给比对标上注释以及计算一致序列。所有这些例子都显示在图8.8中。注意那些注释行(行前标记为#),它们简单地介绍了每一个代码块的作用,这些代码都是由普通的大多数命令都使用的语法写的。跟在BOX_REGION命令后面的四个数字显示序列中哪些区域被召集,在这里,第一个BOX_REGION命令后面是6 3 15 8,意思是从第三个序列的第六个残基开始到第八个序列的第十五个残基打上方框。写好的文件可以直接被ALSCRIPT使用,这些文件可以从网上得到,也可以由发布的UNIX版本自带。
ALSCRIPT和MacBoxShade使用的序列例子是一样的,但是程序本质上是不一样的,报告序列也是不一样的,图8.7和8.9的区别是很明显的。怎样评估和权衡十分容易:MacBoxShade比较容易使用,因为所有因素都是对话框形式的,但是选项有限;而ALSCRIPT提供了更多的输出选项,但是正如显示的命令文件,学习怎样指定输出的格式需要一定的时间作为代价。实际上,ALSCRIPT命令文件可以由模式组成,这些模式使用于一个比对到另一个比对,只要用户对数字作必要的修改,这是一个很专业的产出结果。怎样选择比对格式工具依赖于用户的最终应用需要�是要进行迅速地浏览观测还是要得到拥有出版质量的图形。
第八章中涉及到的有关课题的互联网地址:
参考文献:
Bairoch.A. (1997). The PROSITE database: Its staus in 1997. Nucl.Acids.Res. 25. 217-221.
Barton.G. (1993). ALSCRIPT. a tool to format multiple sequence alignment. Protein Eng. 6. 37-40.
Corpet.F. (1988). Multiple sequence alignment with hierarchical clustering. Nucl.Acids.Res. 16. 10881-10890.
Gribskov.M.., McLachlan.A.., and Eisenberg.D. (1987). Profile analysis: Detection of distantly-related proteins. Proc.Natl.Acad.Sci. U.S.A. 84. 4355-4358.
Gribskov.M.., Homyak.M.., Edenfield.J.., and Eisenberg.D. (1988). Profile scanning for three-dimensional structural patterns in protein sequences. Comput.Appl.Biosci. 4. 61-66.
Henikoff.J.G.., and Henikoff.S. (1996). BLOCKS database and its applications. Methods Enzymol. 266. 88-105.
Higgins.D.G.., Thompson.J.D.., and Gibson.T.J. (1996). Using CLUSTAL for multiple sequence alignments. Methods Enzymol. 266. 383-402.
Luthy. R.., Xenarios.I.., and Lawrence.C.E. (1997). Extracting protein alignment models from the sequence database. Nucl.Acids.Res. 25. 1665-1677.
Sankoff.D. (1975). SIAM J.Appl.Math.78.35.
Tatusov.R.., Altschul.S.., and Koonin.E. (1994). Detection of conserved segments in proteins: Iterative scanning of sequence databases with alignment blocks. Proc.Natl.Acad.Sci. U.S.A. 91. 12091-12095.
上一篇:序列比对和数据库搜索 下一篇:系统发育分析
共4页: 上一页 [1] [2] [3] 4 下一页