1982年美国国立卫生研究院(NIH)、美国国立医学图书馆(NLM)、美国国家生物技术信息中心(National Center of Biotechology Information,NCBI)等机构开始建立核酸序列数据库即GenBank,它是一个公共数据库,提供所有公开发表的核酸和蛋白质序列及其生物学注释以及书目
网站地图本站论坛
高级搜索收藏本站
当前位置:试验方案>生物芯片>信息学> 正文
  • 美国基因数据库(GenBank)概述

  • 点击:    作者:   来源: 日期:2007-12-16    本站论坛
1982年美国国立卫生研究院(NIH)、美国国立医学图书馆(NLM)、美国国家生物技术信息中心(National Center of Biotechology Information,NCBI)等机构开始建立核酸序列数据库即GenBank,它是一个公共数据库,提供所有公开发表的核酸和蛋白质序列及其生物学注释以及书目文献等信息。

GenBank中的数据呈指数增长。1985年,基因库仅有5,700条记录,其中绝大多数记录来自于生物学文献。到1997年8月GenBank发行102期止,已收录了160多万条记录,10多亿个碱基。仅1997年就增加了690,000条新序列。其中基因组数据也不断增加,1996年,GenBank仅收录2条完整的基因组,1997年就增加了6条新的完整基因组,到目前为止,基因库已包括大肠杆菌在内的10条完整基因组数据。此外,至少有32条完整的微生物基因组即将测序完毕,不久将收入到GenBank。以前,基因库中的数据每18个月增加一倍,由于大量的表达序列标识(Expressed Sequence Tags,EST)收入基因库,所以现在基因库中的数据每15个月就增加一倍,并且有加速的趋势。

基因库中的基因数据出自30,000多种不同的物种,现在每月有600多种新的物种加入到基因库中。57%的序列出自人类(其中49%是人类ESTs),其次是鼠和线虫,分别占10%和9%。

GenBank自创建以来就与EMBL核酸序列数据库进行了国际合作。1987年日本国立遗传学研究所建立了日本DNA数据库(DNA Data Bank of Japan,DDBJ),并加入GenBank和EMBL的国际合作。至此形成了国际核酸序列数据库协作体(International Nucleotide Sequence Database Collaboration)。现在,这三个数据库分别收集所在区域的核酸序列信息,实行数据共享,每天交换各自数据库收录的新的序列记录。

GenBank在加强与其它核酸序列数据库之间合作的同时,也加强了与其它分子生物学数据库之间的合作。GenBank中的序列数据有来自于EMBL、DDBJ、基因组序列数据库(Genome Sequence Database,GSDB)、美国专利局等核酸数据库的DNA序列,也有来自于PIR、SWISS-PROT、PRF(Protein Research Foundation)、PDB(Protein Data Bank)等蛋白质数据库的蛋白质和氨基酸序列。与Medline生物医学文献数据库建立了交叉参考信息,可以通过Entrez、IGM和PUBMED获取其中与序列有关的文献信息。在基因和染色体图像数据方面,与分子模型数据库(MMDB)和蛋白质数据库(PDB)建立了链接,可以获取基因的三维结构。在基因遗传疾病描述方面,加强了与孟德尔人类遗传学联机数据库(Online Medelian Inheritance in Man,OMIM)的联系。使基因库成为综合性的序列数据库。

80年代GenBank主要以磁盘或磁带介质存贮和发行的,1989年后EMBL、GenBank、 PIR和PDB等相继推出了光盘版数据库,但并未从根本上解决数据库的存贮、传递和使用问题。1992年仅用1张光盘就存贮了GenBank所有的序列数据,到1997年12月,需要12张才能容纳GenBank 所有的序列数据,1998年4月15日基因库已不再发行光盘版数据库,但累积和非累积的更新文档的所有注释可通过FTP获取。1984年美国NIH和Intelligenetics公司建立了分子生物学计算专用的Bionet,到1990年该网由GenBank-On-Line Servies(GOS)和NCBI Network所取代。除美国外,还连接欧洲和日本的实验室。现在,上述网络均与Internet互联,加速了数据库的存贮、传递和数据资源的共享,极大地方便了世界各地的用户对数据库的使用。

GenBank提供了Entrez浏览器(Entrez Browser),用户可以检索GenBank、EMBL、PIR、SWISS-PORT、PDB等数据库的序列信息以及Medline中与序列有关的文献信息,并且对于每一个序列或文献,还给出了类似(或同源)的序列或相关文献。在GenBank检索过程中,还可提供PubMed服务,通过它可以免费检索Medline和Pre-Medline中960多万条生物医学文献,部分可联网获取原文(详见本书第十三章第三节)。

GenBank建立了电子邮件服务器。通过发送电子邮件,即可免费检索基因库或进行序列分析。

更为重要的是,GenBank提供了BLAST序列类似性检索。序列对数据库的类似性检索是核酸或蛋白质序列测定之后首先要做的工作,而且有时能得到重要的发现。例如,Doolittle等和Waterfield等在1983年分别同时测定了血小板衍生生长因子(PDGF)序列片断,对数据库检索发现它与癌基因v-sis的序列显著相似(同源),并且在Science和Nature两大杂志上以最快的速度几乎同时报道了这一发现,立即引起了科学界的轰动。此外,短序列的类似性检索有时能指导进一步的实验设计,或有助于实验结果的分析。

 

此外,GenBank还提供了匿名FTP服务。通过它,用户可以免费获取基因库的数据或软件,这样,可以在本地的计算机上很方便地建立自己的序列数据库及其相应的软件。

上一篇:向GenBank提交数据   下一篇:怎样研究植物抗病反应的分子机理

推荐文章
 
相关文章
推荐专题
 

↑返回顶部   打印本页   关闭窗口↓  
 本站申明 联系我们 网站地图
Copyright© 试验方案

Powered by DedeCms email:htmyth#yahoo.com.cn QQ:386836509

Optimized to 1024x768 to Firefox,Opera and MS-IE6