一旦序列被写出来,我们将绘制生物高聚物的二维草图,草图中包括所有的原子、基本符号、化学键,可能会占用几页纸。亚化血红素配合基的绘制即为一例。将它的化学结构画在纸上后,我们可以通过量测模型中每个原子在设定的直角坐标系中的距离记录三维数据。同时也提供了球�棒结构中每个原子“球”的x,y,z坐标距离数据。
下一步是提出一个系统的分门别类的记录方案以保存与识别有关的每个原子的(x,y,z)坐标信息。最简单的方法是在生物高聚物的二维草图上,每个原子的右侧,标出(x,y,z)三元坐标值。
以上思想实验有助于我们对三维结构数据库应包含哪些内容形成初步的概念。从人类可读性的角度而言,这样的结构记录形式是足够的,但计算机却不一定能够理解它。计算机需要原子、化学键、坐标、残基、分子间结合关系的清晰明显的编码。
典型的三维结构记录中与使用的文件格式无关的最明显的数据是坐标数据,它表征了分子中原子的空间位置,用沿着每个坐标轴到某特定原点的距离(x,y,z)表示。每个原子的坐标数据归属于结构记录中的标注信息列表:空间中的每一点代表了记录中的元素、残基和分子。对于生物多聚体,这标注信息来源于序列。每个序列固含的是重要的化学数据。我们能够直接从序列中推断出完整的包含所有原子和化学键的生物高聚物分子化学联接,能够恰如早先所描述的仅从序列信息出发描绘出草图。我们把这分子“草图”称作三维结构的化学图像。序列是生物高聚物分子完整化学图谱的固有表示。
当描绘从属原子与化学键的略图以表示序列时,我们可以借鉴教科书中描绘的每个残基的化学结构,以免露掉一两个甲基。同样地,计算机可利用“残基词典”在内存中建立结构的类似于略图的化学图像表示,“残基词典”中则包括一组对应于每个普通氨基酸或核酸模块的原子类型与化学键信息表。
分子图像可视化软件完成了精细的“点联接”过程,而绘制出如我们在生物分子结构教科书中所见到的完美的蛋白质结构图像,例如图3.1所示的胰岛素3INS结构(Isaacs,Agarwal,1978)。显然,原子间联接依靠化学键。在目前的应用中,三维分子结构数据库记录使用了两种不同的键数据信息优化存储方法。
记录原子与化学键信息的经典途径是依靠“化学准则”。这些准则是显而易见的物理化学准则,比如稳定的碳、碳键的平均长度大约1.5埃。应用这些来源于化学键的规则,意味着空间中两个1.5埃距离的碳原子总形成单键。有了这些化学准则,我们可完全简化化学键信息存储。倘若结构本身未违背任何化学规则,则能够被完整记录而不带任何附加键信息。
最初的三维生物分子结构文件记录格式,Brookhaven蛋白质数据库(Bernstein等,1977)的PDB格式皆以化学准则方法为基础。一般而言,这些记录没有生物高聚物的完整键信息。无需“残基词典”,而仅用可能成键原子对的键长与键类型匹配表即可解译用“化学准则方法”编码的数据。
PDB数据文件读入软件包必须能基于这类规则重构化学键。对于程序员,如何解释PDB文件中的键信息尚未形成明确统一的规则,而导致了各类软件绘制化学键连接时的不一致,尤其应用了不同的算法和距离容差,这类情况更为严重。虽然PDB文件组织方案在记录数据存储方面的要求最低,但比较连键信息和化学图像描述已在记录中详细说明的情况,则对存储信息进行恰当解释所需算法也相应更复杂。这将迫使程序开发者做更多的工作。基于事件的编程中,考虑连键规则中的种种例外情况,更需要复杂的逻辑说明。