Tmpred的Web界面十分简明。用户将单字符序列输入查询序列文本框,并可以指定预测时采用的跨膜螺旋疏水区的最小长度和最大长度。输出结果包含四个部分:可能的跨膜螺旋区、相关性列表、建议的跨膜拓扑模型以及代表相同结果的图。如果用G蛋白耦联受体(P51684)作查询序列,将会得到下面的模型:
2 possible models considered, only significant TM segments used
-----> STRONGLY prefered model: N-terminus outside
7 strong transmembrane helices, total score : 14196
# from to length score orientation
1 55 74 (20) 2707 o-i
2 83 104 (22) 1914 i-o
3 120 141 (22) 1451 o-i
4 166 184 (19) 2155 i-o
5 212 235 (24) 2530 o-i
6 255 276 (22) 2140 i-o
7 299 319 (21) 1299 o-i
------> alternative model
7 strong transmembrane helices, total score : 11974
# from to length score orientation
1 47 69 (23) 2494 i-o
2 84 104 (21) 1407 o-i
3 123 141 (19) 1352 i-o
4 166 185 (20) 1904 o-i
5 219 236 (18) 2453 i-o
6 252 274 (23) 1386 o-i
7 300 319 (20) 915 i-o
每种建议的模型都指出格区段起始和终止位点,及其相对膜的取向(由内到外inside-to-outside,或由外到内outside-to-inside)。算法作者恰当地指出这些模型基于假设全部跨膜区在预测中都被找到。因而这些模型应被看作是从该方法所得数据的角度出发所的结果。
第二种预测方法是TMAP,它类似于SSPRED采用了多序列比对来提高预测的准确性(Persson和Argos,1994)。同样一G蛋白耦合受体为例,提交给tmap@embl-heidelberg.de的查询序列的格式如下所示:
SEQUENCE
TITLE G protein-coupled receptor
BLOSUM 62
INDEL 10
ALIGN 50
Z_SCORE 4
SEQ
MSGESMNFSDVFDSSEDYFVSVNTSYYSVDSEMLLCSLQEVRQFSRLFVPIAYSLICVFGLLGNILVVIT
FAFYKKARSMTLVYLLNMAIADLLFVLTLPFWAVSHATGAWVFSNATCKLLKGIYAINFNCGMLLLTCIS
END
TITLE行使返回给用户的结果易于辨认。BLOSUM 62命令指定用BLITZ在Swiss-Prot中搜索是采用的得分矩阵,这里可以采用任一可得的BLOSUM或PAM矩阵;INDEL、ALIGN和Z_SCORE等命令与前面在SSPRED服务中所述含义完全一样。序列本身前面标上起始关键字SEQ,最后标上END关键字。无论用电子邮件还是用Web界面,结果都由电子邮件返回。返回的内容包括BLITZ为查询序列所作的多序列比对结果,关于各跨膜区位置的预测,以及给出结果图示的PostScript文件。对G蛋白耦合受体的TMAP预测结果如下:
PREDICTED TRANSMEMBRANE SEGMENTS FOR PROTEIN G protein-coupled receptor
TM 1: 46 - 74 (29)
TM 2: 82 - 108 (27)
TM 3: 117 - 145 (29)
TM 4: 159 - 187 (29)
TM 5: 212 - 240 (29)
TM 6: 251 - 276 (26)
输出结果格式很简单,给出了跨膜区段序号、各区段起始和终止位置,括号中是区段长度。显然,对于同一个蛋白两个不同的方法给出了有显著不同的预测结果。Tmpred预测了七个跨膜区段,而TMAP的预测是六个,并且两组区段边缘相互重叠。在Swiss_Prot中,这个序列条目中注明了七个跨膜区段(43-69、79-99、115-136、155-175、206-233、250-274以及299-316)。相比之下,Tmpred的结果更符合这些位置,在多数情况下,Tmpred的预测比实际情况会稍微长一些和偏一些。对TMAP也是一样,只是TMAP把最后一个区段整个漏掉了。用户可能设想TMAP预测比Tmpred好,但这里同样要强调利用多种方法进行预测这一惯用策略,然后再手工审查其结果。
信号肽
丹麦技术大学的生物序列分析中心开发了SignalP这个强大的信号肽及其剪切位点检测工具(Nielsen等,1997)。该算法基于神经网络方法,用已知信号序列的革兰氏阴性原核生物、革兰氏阳性原核生物及真核生物的序列分别作为训练集。SignalP预测的是分泌型信号肽,而不是那些参与细胞内信号传递的蛋白。
人类胰岛素样生长因子IB前体(生长调节素C,P05019),具有已知剪切位点,通过Web界面提交给SignalP加以分析。预测采用的是真核训练集,分析结果如下:
************************* SignalP predictions *************************
Using networks trained on euk data
>IGF-IB length = 195
# pos aa C S Y
46 A 0.365 0.823 0.495
47 T 0.450 0.654 0.577
48 A 0.176 0.564 0.369
49 G 0.925 0.205 0.855
50 P 0.815 0.163 0.376
< Is the sequence a signal peptide?
# Measure Position Value Cutoff Conclusion
max. C 49 0.925 0.37 Yes
max. Y 49 0.855 0.34 Yes
max. S 37 0.973 0.88 Yes
mean S 1-48 0.550 0.48 Yes
# Most likely cleavage site between pos. 48 and 49: ATA-GP
输出结果的第一部分中,标记为C的列是剪切位点打分。在剪切点的C末端位点上得分最高。标记为S的列是信号肽打分,位于剪切点之前的位点得分高而剪切点之后的位点得分低。非分泌型蛋白的N末端的S得分也较低。最后的Y列给出综合剪切点打分,这个几何平均分值指出哪个位点具有高C分值同时又是S分值由高转低。输出文件的结尾提出问题“这个序列是信号肽吗?”,然后根据统计推断出最可能的剪切点。在Swiss_Prot中对该蛋白的注解是:成熟肽链起始与49位,正是SignalP预测的最可能的剪切点。
非球形区域
第七章中已经讨论过用SEG程序在进行数据库搜索前遮盖低复杂性区段。用同样的算法,通过调节触发窗口长度、触发复杂性K1和延伸复杂性K2,可以用来检测待定的非球形区域。受到命令“seq sequence.txt 45 3.4 3.75”后,SEG将使用长于缺省值12的窗口,因而能检测到长非球形结构域。一个用SEG检测非球形区域的例子见图11.4。
| |
1-307
|
MAGAIASRMSFSSLKRKQPKTFTVRIVTMD
AEMEFNCEMKWKGKDLFDLVCRTLGLRETW
FEGLQYTIKDTVAWLKMDKKVLDHDVSKEE
PVTFHFLAKFYPENAEEELVQEITQHLFFL
QVKKQILDEKIYCPPEASVLLASYAVQAKY
GDYDPSVHKRGFLAQEELLPKRVINLYQMT
PEMWEERITAWYAEHRGRARDEAEMEYLKI
AQDLEMYGVNYFAIRNKKGTELLLGVDALG
LHIYDPENRLTPKISFPWNEIRNISYSDKE
FTIKPLDKKIDVFKFNSSKLRVNKLTLQLC
IGNHDLF
|
|
mrrrkadslevqqmkaqareekarkqmerq
rlarekqmreeaertrdelerrllqmkeea
tmanealmrseetadllaekaqiteeeakl
laqkaaeaeqemqrikatairteeekrlme
qkvleaevlalkmaeeserrakeadqlkqd
lqeareaerrakqklleiatk
|
308-478
|
|
| |
479-496
|
PTYPPMNPIPAPLPPDIP
|
|
sfnligdslsfdfkdtdmkrlsmeiekekv
eymekskhlqeqlnelkteiealklkeret
aldihnensdrggsskhntikkltlqsak
s
|
497-587
|
|
| |
588-595
|
RVAFFEEL
|
图11.4 SEG预测的neurofibromatosis type 2基因(L11353)产物蛋白的非球形区域。非球形区以小写列于左边。数字标出每一块的残基位置。
上一篇:系统发育分析 下一篇:丝状真菌观察法
共4页: 上一页 [1] [2] 3 [4] 下一页