介绍生物资讯,实验基础,核酸试验,蛋白试验,动植物,生物芯片,微生物,细胞生物学,医学健康,资源下载,其他资料,生物学试验方案方法知识的网站
网站地图本站论坛
高级搜索收藏本站
 
 当前位置:试验方案>生物芯片>信息学> 正文

生物数据库的信息检索

点击:   作者:   来源:  时间: 2007-07-04  本站论坛

Andreas D Baxevanis

国家人类基因组研究学会,基因组技术部

国家保健学会

马里兰州,Bethesda

如第二章所述,建立GenBank是为了适应人类基应组工程等科学研究产生的大量序列数据的信息爆炸。总的来说,GenBank是带有注释的公用DNA,蛋白质序列的集合。写作本书时,GenBank中有160万条链的纪录,含超过10亿个核苷酸碱基。向GenBank存入新的序列有两种方法:通过Sequin和BankIt等工具直接提交,或通过国际核苷酸序列数据库的组成部分GenBank,EMBL,和DDBJ等相互之间传递数据的共享协议。关于提交工具及这种数据协作的性质的进一步的信息参见第14章。

GenBank或其他任何有关的生物数据库必须容易查找而且查出的记录的格式便于使用??,否则就不会有很大的用处。??另外,因为总的来说生物学界还不能有效的利用隐藏在这些上百万的碱基及氨基酸之中的信息,排序的工作也没有很大的用处。为了使这些数据对于一般的使用者容易利用而做过很多努力,这些工作的结果--程序和界面是本章的重点。因为这些更通用的数据库与生物学家通常使用的那些数据库相差很远,所以本章的论述集中在如何查询NCBI数据库上,但是本章同时也注意到一些较小的较专门的数据库,它们提供的信息在GenBank中未必能找到。

检索数据库记录:检索服务器

查询NCBI数据库最简单的方法可能是使用名为Retrieve的邮件服务器。检索服务器通过简单的关键字搜索来查询记录。一次可以检索一个可用的数据库,可以是简单的(只含有一个关键字〕或复合的(含有由逻辑算符组合的多个关键字)。服务器的地址为retrieve@ncbi.nlm.nih.gov。同大多数邮件服务器一样,如果向服务器发送一封正文只含一个单词Help的邮件将会返回一个关于如何使用检索服务器的详尽的解释。

回顾第一章,使用一个邮件服务器时,向服务器发送的消息必须是严格的符合服务器可以理解的指令格式。如下例所示:

 

此处,消息的标题与服务器无关。由于返回查询结果时将会带有原来的标题,因此发送多条消息给服务器的时候加上一个描述性的标题有助于使用者区分不同的查询结果。消息正文以名为DATALIB的查询参数开始,该参数表示应检索那一个可用的数据库(这里是查询SWISS-PROT)。标志“BEGIN”表示没有别的检索参数了,紧接着的词都是搜索条件。可以用逻辑符号AND,OR,及NOT组合检索条件;圆括用于分隔检索条件;引号表示必须组合在一起的短语。本例中,服务器将会返回所有含有短语"histone H1"且含有单词Saccharomyces及Schizosaccharomyces之一的记录。如果不用逻辑运算符及分隔符(即,检索条件为histone H1 Saccharomyces Schizosaccharomyces〕,则在条件之间将会自动加上OR,这不符合使用者的要求。这个复合查询的结果显示于图5.1。

通常,提交的检索范围过大,返回的记录数远多于对查询者有用的数目。例如,前面的检索如果没写种类名的话将会失败,因为含有"histone H1"的记录太多。况且,即使这条短语并不是某条记录的真正主题,它也有可能出现在该记录之中:例如,这个短语是某篇论文的标题的一部分,但论文是讨论别的序列的。当查到的记录太多无法处理的时候,将会产生错误。输出行数及检索到的记录数都有上限;这主要是由于很多电子邮件系统不能处理太大的电子邮件信息,而且过多的泛泛的查询只会降低系统的速度。为了提高检索质量,用户可以设定额外的检索参数;用于改变行数或记录数的限制,或只返回记录的标题而不是全部列出。用户也可以限制实际检索的域。回到上面的例子,如果检索条件以"histone H1"[DEF]开始,则表示仅在记录的定义行中查找这个短语。可以在检索帮助文档中找到检索参数和域限制条件的完整的清单,以及可以检索的数据库的列表.

图5.1 提交检索服务器的一个复合查询的结果。注意检索在SWISS-PROT和更新过的SWISS-PROT上运行共两次(后者含有上一个数据库主版本之后的新的记录)。此处提交的查询只返回了一条记录。

集成信息检索:ENTREZ系统

检索服务器可以对有目标的检索记录,但它主要的缺陷在于一次只能从一个数据库中检索到记录;想对一批数据库进行检索的用户必须为每一个目标数据库分别发出一次申请。很明显,这些大量的公用数据库之间存在着逻辑联系。例如,MEDLINE中的一篇论文可能描述一个基因的序列,该基因又在GenBank中出现。其核苷酸序列所编码的蛋白质的序列又存放在蛋白质数据库中。这种蛋白质的三维结构可能又是已知的,结构的数据可能出现在结构数据库中。最后,基因可能定位在某条染色体的某个区域,这类信息存放在图谱数据库中。

在这些生物学上的联系的基础上开发了一种方法;可以通过它查询所有与某一特殊的生物学实体有关的所有信息,而不必按次序查询分立的数据库。这就是一个名为Entrez的分子检索系统。它由NCBI开发和维护,Entrez在所有的主要的数据库计算机平台上均可使用,允许对PubMed(MEDINE)的记录,核苷酸和蛋白质的序列数据,三维结构信息,图谱信息进行集成的访问。全部信息只需经过一次查询。Entrez能够通过数据库之间的两种类型联系:相近性和硬连接来提供集成的信息检索。

相近性

相近性联系着一个给定的数据库之内的记录。使用者在查看MEDLINE中某条记录时可以要求Entrez"找出所有类似的论文",类似的,使用者在查看一个序列的同时可以要求Entrez"找出所有与这个序列类似的序列"。一个数据库之内的相近性关系是建立在对相似性的统计计算上的:

上一篇:应用GCG进行序列分析   下一篇:NCBI 数据模型


共7页: 上一页 1 [2] [3] [4] [5] [6] [7] 下一页

 
推荐文章
 
相关文章
推荐专题
 


↑返回顶部   打印本页   关闭窗口↓  
 本站申明 联系我们 网站地图
Copyright© 试验方案

Powered by DedeCms email:htmyth#yahoo.com.cn QQ:386836509

Optimized to 1024x768 to Firefox,Opera and MS-IE6