【前介】 本章将集中介绍生物信息学中生物分子结构的有关内容,并将研究重点放在三维结构实际存在的氨基酸序列上,力图使读者了解结构数据库记录的内容及如何合理应用各类通用软件程序处理这类记录。本章不涉及结构生物学家们建立三维分子结构的计算程序,也不讨论相似
网站地图本站论坛
高级搜索收藏本站
 
 当前位置:试验方案>生物芯片>信息学> 正文

结构数据库

点击:   作者:   来源:  时间: 2007-07-04  本站论坛
 【前介】

本章将集中介绍生物信息学中生物分子结构的有关内容,并将研究重点放在三维结构实际存在的氨基酸序列上,力图使读者了解结构数据库记录的内容及如何合理应用各类通用软件程序处理这类记录。本章不涉及结构生物学家们建立三维分子结构的计算程序,也不讨论相似蛋白质构象的精细结构。在本章参考书目后列出了一些优秀的讨论蛋白质构象的有关专著和蛋白质结构决定方法。

用图象直观表示蛋白质和核酸结构在生物化学教科书和研究论文中屡屡出现。这些图象是美丽迷人的反而使我们忽视了图象背后所反映的实验细节���实验中应用的生物物理方法,X射线晶体衍射学家和核磁共振波谱分析学家们努力工作的成效.在结构数据库中记录的数据是实用化的实验数据。 它既不同于直接由仪器获得的原始数据,也并非原始数据的简单数学转换。每一个结构数据库记录都内含着随结构预测技术的进步而不断变化的假设和偏好。尽管如此,每个生物分子结构蕴涵着有关序列所缺失数据的至关重要的信息。

     

  • 三维分子结构数据的一些概念

     

首先做一个关于如何记录生物高聚物的三维数据的思想实验。考虑一下如何在纸上记录如肌球素这类蛋白质的三维球棒模型的所有细节和尺度关系。一条开始的途径是从由三维模型主干描绘出的氨基酸序列入手。从N端开始,我们通过将每个残基的化学结构与20种普通氨基酸化学结构(其结构的图解可以从教科书中找到)比较,以识别每个氨基酸侧链。

一旦序列被写出来,我们将绘制生物高聚物的二维草图,草图中包括所有的原子、基本符号、化学键,可能会占用几页纸。亚化血红素配合基的绘制即为一例。将它的化学结构画在纸上后,我们可以通过量测模型中每个原子在设定的直角坐标系中的距离记录三维数据。同时也提供了球�棒结构中每个原子“球”的x,y,z坐标距离数据。

下一步是提出一个系统的分门别类的记录方案以保存与识别有关的每个原子的(x,y,z)坐标信息。最简单的方法是在生物高聚物的二维草图上,每个原子的右侧,标出(x,y,z)三元坐标值。

以上思想实验有助于我们对三维结构数据库应包含哪些内容形成初步的概念。从人类可读性的角度而言,这样的结构记录形式是足够的,但计算机却不一定能够理解它。计算机需要原子、化学键、坐标、残基、分子间结合关系的清晰明显的编码。

     

  • 坐标、序列、化学图像

     

典型的三维结构记录中与使用的文件格式无关的最明显的数据是坐标数据,它表征了分子中原子的空间位置,用沿着每个坐标轴到某特定原点的距离(x,y,z)表示。每个原子的坐标数据归属于结构记录中的标注信息列表:空间中的每一点代表了记录中的元素、残基和分子。对于生物多聚体,这标注信息来源于序列。每个序列固含的是重要的化学数据。我们能够直接从序列中推断出完整的包含所有原子和化学键的生物高聚物分子化学联接,能够恰如早先所描述的仅从序列信息出发描绘出草图。我们把这分子“草图”称作三维结构的化学图像。序列是生物高聚物分子完整化学图谱的固有表示。

当描绘从属原子与化学键的略图以表示序列时,我们可以借鉴教科书中描绘的每个残基的化学结构,以免露掉一两个甲基。同样地,计算机可利用“残基词典”在内存中建立结构的类似于略图的化学图像表示,“残基词典”中则包括一组对应于每个普通氨基酸或核酸模块的原子类型与化学键信息表。

     

  • 原子、化学键和完整性

     

分子图像可视化软件完成了精细的“点联接”过程,而绘制出如我们在生物分子结构教科书中所见到的完美的蛋白质结构图像,例如图3.1所示的胰岛素3INS结构(Isaacs,Agarwal,1978)。显然,原子间联接依靠化学键。在目前的应用中,三维分子结构数据库记录使用了两种不同的键数据信息优化存储方法。

记录原子与化学键信息的经典途径是依靠“化学准则”。这些准则是显而易见的物理化学准则,比如稳定的碳、碳键的平均长度大约1.5埃。应用这些来源于化学键的规则,意味着空间中两个1.5埃距离的碳原子总形成单键。有了这些化学准则,我们可完全简化化学键信息存储。倘若结构本身未违背任何化学规则,则能够被完整记录而不带任何附加键信息。

最初的三维生物分子结构文件记录格式,Brookhaven蛋白质数据库(Bernstein等,1977)的PDB格式皆以化学准则方法为基础。一般而言,这些记录没有生物高聚物的完整键信息。无需“残基词典”,而仅用可能成键原子对的键长与键类型匹配表即可解译用“化学准则方法”编码的数据。

PDB数据文件读入软件包必须能基于这类规则重构化学键。对于程序员,如何解释PDB文件中的键信息尚未形成明确统一的规则,而导致了各类软件绘制化学键连接时的不一致,尤其应用了不同的算法和距离容差,这类情况更为严重。虽然PDB文件组织方案在记录数据存储方面的要求最低,但比较连键信息和化学图像描述已在记录中详细说明的情况,则对存储信息进行恰当解释所需算法也相应更复杂。这将迫使程序开发者做更多的工作。基于事件的编程中,考虑连键规则中的种种例外情况,更需要复杂的逻辑说明。

上一篇:性连锁的发现   下一篇:应用GCG进行序列分析

共12页: 上一页 1 [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] 下一页

 
推荐文章
 
相关文章
推荐专题
 


↑返回顶部   打印本页   关闭窗口↓  
 本站申明 联系我们 网站地图
Copyright© 试验方案

Powered by DedeCms email:htmyth#yahoo.com.cn QQ:386836509

Optimized to 1024x768 to Firefox,Opera and MS-IE6