nnpredict
nnpredict算法使用了一个双层、前馈神经网络去给每个氨基酸分配预测的类型(Kneller等,1990)。在预测时,服务器使用FASTA格式的文件,其中有单字符或三字符的序列以及蛋白质的折叠类(a 、b 或a /b )。残基被分为几类,如a 螺旋(H)、b 链(E)或其它(-)。若对给定残基未给出预测,则会标上问号(?),这说明无法作出可信的分配。若没有关于折叠类的信息,预测也能在不定折叠类的情况下进行,而且这是缺省的工作方式。据报道,对于最佳实例的预测,nnpredict的准确率超过了65%。
序列通过向nnpredict@celeste.ucsf.edu发送电子邮件提交给nnpredict。以黄素氧还蛋白为例,电子邮件的格式为:
option: a/b
>flavodoxin - Anacystis nidulans
AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASKLNAYDYLIIGCPTWNVGELQSDWEGIY
DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG
LAIDEDNQPDLTKNRIKTWVSQLKSEFGL
Option行标明蛋白质的折叠类:n用于无折叠类,a为a ,b为b ,a/b为a /b 。每个电子邮件只能提交一个序列,服务器返回的结果经整理见图11.3。
PredictProtein
PredictProtein(Rost等,1994)在预测中应用了略为不同的方法。首先,蛋白质序列被作为查询序列在SWISS-PROT库中搜索相似的序列。当相似的序列被找到后,一个名为MaxHom的算法被用来进行一次基于特征简图的多序列比对(Sander和Schneider,1991)。MaxHom用迭代的方法来构造比对:当第一次搜索SWISS-PROT后,所有找到的序列与查询序列进行比对,并构造出一个比对后的特征简图。然后,这个简图又被用来在SWISS-PROT中搜索新的相似序列。由MaxHom产生的多序列比对随后被置入一个神经网络,用一套称为PHD(Rost,1996)的方法进行预测。PHD这一套二级结构预测方法不仅仅给每个残基分配一个二级结构类型,它还对序列上每个位点的预测可信度给予统计分析。该方法的平均准确率超过72%:最佳残基预测准确率达90%以上。
向predictprotein@embl-hcidelberg.de发送的输入序列电子邮件为以下格式:
Joe Buzzcut
National Human Genome Research Institute, NIH
buzzcut@baldguys.org
# flavodoxin - Anacystis nidulans
AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY
DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG
LAIDEDNQPDLTKNRIKTWVSQLKSEFGL
在名字、从属关系和地址行之后,#号向服务器表明随后是一个单字符序列。序列基本上是FASTA格式,但其中不允许有空格,传统的>号由#号代替,序列之后也不许有其它东西。
输出结果内容很多并包含大量有关信息。其中有MaxHom搜索结果,并包括多序列比对的结果,它可以用于例如基于特征简图的搜索或物种谱系分析等 进一步研究。如果 提交的序列在PDB库中有已知同源蛋白,则其PDB标识号也会输出返回。随后是方法本身信息,最后是实际预测结果。与nnpredict不同,PredictProtein还返回每个位点的“预测可信度索引”,范围从0到9,9具有最高的可信度,也就是说该位点所分配的二级结构类型是正确的。对特定例子该程序返回的预测结果,以及与其它预测方法的比较整理后见图11.3。
SSPRED
与PredictProtein相似,EMBL的二级结构预测方法(Mehta等,1995)先在数据库中搜索序列的相似蛋白,构建多序列比对,然后进行预测。该方法在比对时,特别注意非保守位点的替换,并利用比对结果作为初始预测结果。初始预测结果经过滤除去那些简单不合理的结果单元,这些包括长度不合理的单元或是一种结构类型打断了一串另一种类型(例如,预测为HHHEHH,就应变成HHHHHH)。所有的a 螺旋应至少4个残基长,所有的b 链应至少3个残基长。
同样以黄素氧还蛋白为例,以下是提交给sspred@embl-heidelberg.de的作SSPRED搜索邮件格式:
SEQUENCE
TITLE flavodoxin - Anacystis nidulans
BLOSUM 62
ALIGN 50
INDEL 10
Z_SCORE 7.0
SEQ
AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY
DDLDSVNFQGEKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG
LAIDEDNQPDLTKNRIKTWVSQLKSEFGL
END
关键词SEQUENCE提示服务器有一个单序列被提交上来。TITLE行允许包含关于输入序列的一些评语,并会在返回结果中出现。BLOSUM 62命令指示SSPRED在作比对打分时使用该矩阵。PAM矩阵和BLOSUM矩阵都是可以选用的,而缺省的设置是PAM 120。INDEL 10是空位罚分值。用户可以不管这一行而让SSPRED基于所用的打分矩阵预测合适的缺省值。降低INDEL值使空位插入更可接受。ALIGN 50指示服务器用50个最佳比对进行二级结构预测。Z_SCORE 7.0行允许用户提高或降低BLITZ搜索的敏感度。最后,序列要加上特定起始关键字SEQ和结束关键字END。
在分析结束后,用户将得到包含一系列输出文件的电子邮件。其中包括在预测中用到的BLITZ产生的多序列比对的结果,以及最终预测的结果。电子邮件中还包括最初预测结果及过滤后的结果。前面的序列实例的SSPRED最终预测结果与其它方法的比较见图11.3。
SOPMA
位于法国里昂的CNRS(Centre National de la Recherche Scientifique)使用独特的方法进行蛋白质二级结构预测。它不是用一种,而是5种相互独立的方法进行预测,并将结果汇集整理成一个“一致预测结果”。这5种方法包括:Garnier-Gibrat-Robson(GOR)方法(Garnier等,1996)、Levin同源预测方法(Levin等,1986)、双重预测方法(Deléage和Roux,1987)、作为前面PredictProtein一部分的PHD方法和CNRS自己的SOPMA方法(Geourjon和Déleage,1995)。简单的说,SOPMA这种自优化的预测方法建立了已知二级结构序列的次级数据库,库中的每个蛋白质都经过基于相似性的二级结构预测。然后用次级库中得到的信息去对查询序列进行二级结构预测。
使用这种方法可以将序列本身作为电子邮件提交给deleage@ibcp.fr,用SOPMA作为邮件主题,或使用SOPMA的Web界面。各种作为一部分的预测结果以及“一致预测结果”都见图11.3。
各种方法的比较
根据图11.3,可以明显看出所有的方法在预测二级结构方面完成得相对较好,但都不完美。选黄素氧还蛋白作为测试的实例是因为它具有相对复杂的结构:它有6个a 螺旋和5个b 叠片,属于a /b 折叠类。有一些分配结果在各种方法中是一致的:如各种方法都很好地找到了b 1、b 3、b 4和a 5。但有些方法把某些二级结构单元彻底漏掉了(如nnpredict漏掉了a 2、a 3和a 4),而有些预测方法所得的结果缺乏生物学意义(如双重预测方法在b 4,认为螺旋、叠片和拐角一个接一个交替出现)。PredictProtein方法正确找到了所有的二级结构单元,并在多处准确识别了二级结构元件的长度,在整体上预测表现最佳。但并非说明其它方法没用或不够好,因为在其它某些实例中无疑会有某种方法表现更好。由于没有更多信息可用来判断哪种方法最好,最好是把序列提交给多个服务器,将结果汇集整理,通过人为的比较来判断哪些预测结果成立或不成立。(在图11.3中显示的CNRS一致序列就属于这一类尝试,但一致序列也不是完全正确的。)虽然这一方法中并未包含某种对预测方法失败保险的预测,但由这些预测的确增强了结果了可信度。
………………
图11.3各种二级结构预测方法的比较。作为查询序列的黄素氧还蛋白(flavodoxin)是一种a /b 蛋白,其序列排在第一行。对每个预测,H代表a 螺旋,E代表b 链,T代表b 拐角,其它位点都认为是无规卷曲。所采用的各预测方法列在其结果的左侧,其详细描述见正文。图的最下一行是由PDB文件中的黄素氧还蛋白(1OFV,Smith等,1983)所得的二级结构分布。
特殊结构或结构特征
就象a 螺旋和b 叠片的位置可以较为准确地预测出来,其它特定的结构或结构特征,如卷曲螺旋和跨膜区也可以预测出来。但这类预测的方法没有二级结构预测方法多,主要是由于这些结构或结构特征的折叠规律尚不十分清楚。尽管如此,若查询序列在已知结构数据库中能搜索到相似蛋白,则预测的准确度可能很高。
卷曲螺旋
COILS算法将查询序列在一个由已知包含卷曲螺旋蛋白结构的数据库中进行搜索(Lupas等,1991)。程序也将查询序列与包含球状蛋白序列的PDB次级库进行比较,并根据两个库搜索得分的不同决定输入序列形成卷曲螺旋的概率。COILS可以下载到VAX/VMS系统上使用,通过简单的Web界面使用则更方便。
程序要求序列数据为GCG或FASTA格式,一次可以提交一条或多条序列。除了序列,用户还能在两种打分矩阵中选择一种:MTK是根据肌球蛋白、原肌球蛋白和角蛋白序列得到的打分矩阵;或MTIDK,是根据肌球蛋白、原肌球蛋白、中间纤维类蛋白Ⅰ-Ⅴ、桥粒蛋白和角蛋白得到的打分矩阵。程序作者引述了两种矩阵的适用特点:MTK更适合检测双链结构,而MTIDK适合其它情形。用户还能启动一个选项给予每个卷曲a和d位置上残基(通常为亲水性)相同的权重。如果COILS在无权重和有权重情况下得到的结果相差很大,则可能表明存在正错误。程序的作者警告说COILS是用来检测与溶液接触的左手性卷曲螺旋的,对于包埋的或右手性卷曲螺旋则可能检测不到。若一个序列被提交到服务器,程序会整理出一张预测结果图,显示沿着序列各个部分形成卷曲螺旋的倾向性。
一个基于Macintoshi系统的应用程序――MacStripe使用了Lupas的COILS的预测方法,能输出较简单的预测结果(Knight,1994)。MacStripe要求输入文件为FASTA、PIR或其它普遍文件格式,并象COILS一样产生一个图形文件,包含形成卷曲螺旋的概率,以及用柱状图显示七连体重复模式的连续性。下面是以GCN4为例,由MacStripe得到的统计结果文件的一部分。
89 89 L 5 a 0.760448 0.000047
90 90 D 5 b 0.760448 0.000047
91 91 D 5 c 0.760448 0.000047
92 92 A 5 d 0.760448 0.000047
- 93 V 5 e 0.760448 0.000047
94 94 V 5 f 0.760448 0.000047
95 95 E 5 g 0.760448 0.000047
96 96 S 5 a 0.760448 0.000047
97 97 F 5 b 0.760448 0.000047
98 98 F 5 c 0.774300 0.000058
99 99 S 5 d 0.812161 0.000101
100 100 S 5 e 0.812161 0.000101
101 101 S 5 f 0.812161 0.000101
102 102 T 5 g 0.812161 0.000101
从左到右各列分别代表残基序号(显示两次)、氨基酸种类、七连体框架和残基在七连体中的位置(a-b-c-d-e-f-g)、Lupas得分和Lupas概率。在这个例子中,注意到第五列,我们能清楚看出七连体重复模式。分析整个GCN4序列结果表明七连体重复模式得到良好维持,只在某些区域有所分离。既然统计结果不能忽略不计,其结果能更容易地说明七连体重复模式是否明显存在。也可以从COILS得到类似的输出,但不是通过Web服务器,而是在合适的Unix计算机上安装一个C语言编写的程序,这一步对许多用户而言是做不到的。
跨膜区域
前面曾讨论过的Kyte-Doolittle的TGREASE算法能有效地检测高疏水性的区域,但它并不是专门用来预测跨膜区域的,因为水溶性球状蛋白的内埋区也是基本为疏水性的。我们先来看一种专门预测跨膜区的方法:TMpred,它依靠一个跨膜蛋白数据库Tmbase(Hofmann和Stoffel,1993)。Tmbase来源与Swiss-Prot库,并包含了每个序列的一些附加信息:跨膜结构区域的数量、跨膜结构域的位置及其侧翼序列的情况。Tmpred利用这些信息并与若干加权矩阵结合来进行预测。
上一篇:系统发育分析 下一篇:丝状真菌观察法
共4页: 上一页 [1] 2 [3] [4] 下一页