介绍生物资讯,实验基础,核酸试验,蛋白试验,动植物,生物芯片,微生物,细胞生物学,医学健康,资源下载,其他资料,生物学试验方案方法知识的网站
网站地图本站论坛
高级搜索收藏本站
 
 当前位置:试验方案>生物芯片>信息学> 正文

生物数据库的信息检索

点击:   作者:   来源:  时间: 2007-07-04  本站论坛

这次查询得到的蛋白质记录的列表中有IHIV-A和IHIV_B的记录,是一种HIV-1反转录酶在一个点发生突变的突变体(Cys280→Ser)。点击Graphic View连接将打开一个图形方式的视图,看到这条记录的特征表中的所有信息。这个蛋白质有大量的二级结构单元,用这种类型的视图可以很容易的准确的整理出沿着蛋白质链有那些二级结构单元。如果点击标有1 Structure Link的超链接,将打开一个结构一览页面(5.12)。这一页显示的细节是从源PDB文档的标题开始,还有三字母格式的原始结构,到其它信息的链接,如VAST相近记录的列表。如果点击"View/Save:IHIV"下面的View按钮,则将调用Cn3D软件,打开新的窗口显示结构透视图。有些用户对于蛋白质的外形的直观形象感兴趣,Cn3D为此提供了强大的界面。它所给出的信息比任何人从观察字符串(蛋白质的序列)中所能得到的信息更多。可以通过窗口底部和右边的滚动条沿着轴旋转蛋白质分子,或者当光标在窗口中时用点击然后拖拉的方式随意的旋转它。用户也可以放大观察结构的某部分,必要时用数字给残基编号;如本例中的一处变异的位点可以标出。用户也可以改变图的着色方案以确定该蛋白质的特殊的结构特征。在图5.13的例子中,涂刷和着色的方案分别空白填充和疏水性。这个组合的方案可以用于观察表面的电荷分布,指示出蛋白质的那些是蛋白质之间相互作用的部位,那些是蛋白质和DNA作用的部位。关于Cn3D的进一步的资料在地3章中。Cn3D的文档中也有。另外,用户也可以把坐标信息存入到一个文件中,用第三方的程序来观看,如Kinemage(Richardson与Richardson,1992)和Rasmol(Sayle与Milner-White,1995)。

集成的信息访问:查询服务器

有时候用户没有Entrez平台可用,他将只好通过电子邮件来进行检索。也有可能用户在实验室通过T1连接在环球网上访问Entrez但速度又不够快。Query是一种使用电子邮件的Entrez,它能满足需要。Query的思想与Retrieve非常类似,但是一次能查询不止一个数据库。Query可以在一个指定的数据库范围 中查询(蛋白质,核酸,结构或MEDLINE),而且能返回相近的和有硬连接的记录。

同使用Retrieve一样,Query的用户向服务器发出查询请求时必须遵循规定的格式。图5.14概括了Query的申请的一般的格式,显示出在搜索之中可以使用的标志和选项。(Query也支持Retrieve的语法,所以向Query服务器发送Retrieve格式的查询请求也能正确执行。)最简单的查询是使用检索词。执行这种查询要先给定目标数据库和一个或几个检索词。用Query和用Retrieve一样,基于词的检索可以限定在数据库记录的特定域中,这样得到的结果更好。为了显示Query和Retrieve的区别,我们将采用图5.3至图5.14中用过的例子,而按Query的格式表达。

 

查询以一行"DB p."开始,指出要检索的是蛋白质数据库。对比Retrieve一次只允许检索一个数据库;Query允许一次检索所有同类的数据库(此处由蛋白质数据库构成无冗余的查询集)。数据库由一个单字符代码指定:p表示蛋白质,n表示核酸,m表示MEDLINE,t表示结构,s表示对蛋白质和核酸同时检索。检索空间与Entrez检索时用过的相同。

与原来Retrieve检索不同的是,对检索词分别限定了几个域:只在蛋白质名称域中查找"histone H1",只在生物名称域中查找生物名。注意符号&用于表示逻辑与AND,竖线符(|)用于表示逻辑或OR,逻辑非用连字符表示(-);因为检索词中也有可能出现连字符,所以表示逻辑算符的连字符必须在左边或右边至少有一个空格,以与实际的检索词区分。

到此为止,Query看来与Retrieve的区别还不大。实际上执行前面的查询得到的结果与Retrieve相同。然而使用DOPT标志(显示选项)能够彻底改变查询结果,对于用户更为有用。继续看这个例子,可能用户需要有FASTA格式的结果而不是标准的Entrez文档的摘要格式。另外,用户不想看蛋白质记录本身,而是想要与它们有关的核酸链。为了达到这种效果,可以如下的修改检索语句:

DB p

TERM histone H1 [PROT]

&(Saccharomyces [ORGN] | Schizosaccharomyces [ORGN])

DOPT fn

 

DOPT语句中的fn表示与检索条件确定的蛋白质记录有关的核酸记录(n)要用FASTA格式(f)显示。这次检索的结果如图5.15所示。DOPT语句的多种功能使得Query可以输出由别的程序(如序列对比编辑器或预测工具)处理的信息,尤其是FASTA格式的结果,这使得Query非常有用。

最后,Query用户还可以用一下三个附加的标志选项。HTML可以使得返回的结果为HTML格式,可以用网页浏览器来看,DISPMAX可以控制返回的最大记录数:如果不使用DISPMAX,则该缺省值为200,另外还有电子邮件的行数限制为10万行。最后,PATH使返回的查询结果送到另外一个电子邮件地址而不是发出检索请求的地址。

NCBI上的序列数据库

从上面的论述看起来,NCBI似乎是序列数据领域的中心,但世界上还有其它的一些专门的数据库也在科学交流中发挥特殊的作用。这些数据库通常提供一些辅助的信息,如性状,实验条件,杂交??,以及图谱特征。这些数据对于科学交流的某些领域来说很重要,因为它们有助于合理的实验设计。然而这些数据不完全符合NCBI的数据模式的限制,因此建立了这些专门的数据库,它们将被用来作为GenBank的附件而不是作为它的一部分。

这些特殊的数据库之中的两个是酵母基因组数据库(Saccharomyces Genome Database,即SGD)和Arabidopsis thaliana数据库(AtDB),两者都在斯坦福的人类基因组中心。关注SGD是因为

上一篇:应用GCG进行序列分析   下一篇:NCBI 数据模型


共7页: 上一页 [1] [2] [3] [4] [5] 6 [7] 下一页

 
推荐文章
 
相关文章
推荐专题
 


↑返回顶部   打印本页   关闭窗口↓  
 本站申明 联系我们 网站地图
Copyright© 试验方案

Powered by DedeCms email:htmyth#yahoo.com.cn QQ:386836509

Optimized to 1024x768 to Firefox,Opera and MS-IE6