| 实验室的需求 ·生物学实验室研究产生大量的EST/cDNA序列,如何分析数据成为现实问题。应用人工上网用blast比对分析1000个EST,约需2个月的工作量,且结果单一,数据不可靠。 ·分析体系处理仅需1-2个小时,并且可以得到深入的分析结果,数据准确可靠。 ·分析体系的完善需求 目前已经实现过相应的系统, 我们在分析思路的设计方面进行了改进并实现了多功能综合分析,本体系尤其适合对抑制性削减杂交(SSH)文库进行分析。 Outline : ·序列格式化,包括去除载体,屏蔽简单重复序列,计算核酸组成及长度,以Fasta格式输出 ·比对Reference mRNA序列及Unigene序列,找出已知基因,并进行聚类分析 ·对新基因序列进一步与人类染色体比对,筛选出可靠的新基因序列,排除错误序列 ·新EST序列延伸,全长cDNA序列电子克隆及功能结构域分析 ·点突变或者SNP分析 ·制作基因表达图谱 Procedure:

Mask Vector and Format
通过格式化可去除测序过程中载体、重复序列的污染,计算有效序列长度并排除长度小于20bp的序列以提高分析效率 屏蔽载体序列、引物序列和重复序列的干扰,识别克隆目的序列去 除有效序列长度低于20bp的EST以提高工作效率 输出结果以自定义的fasta格式,以方便以后的分析
Blast to Reference mRNA DB

通过FTP在NCBI站点下载reference mRNA 数据,在本地使用‘formatdb‘命令进行格式化 使用-e 1E-10 参数控制blast结果
Screened Known Genes
 Cluster ESTs by Gene
Cluster ESTs by Gene 对不同文库间表达基因进行聚类分析可以: 揭示文库间mRNA表达差异 得出相关组织共同表达的基因 提示不同来源的组织作为研究材料是否可相互替代
Point Mutation/SNP Analysis Point Mutation SNP Analysis Further Analysis From SNP to Haplotype
Map to Human Genome
Gene Expression Map

Reference DB None-hit EST
Blast to Human EST DB

Blast to Human Genome
Blast Parameters: 通过BLAST程序查找同源基因是对cDNA文库分析的一个主要手段,而控制blast结果的主要参数为E-value BLAST程序算法中运用了Karlin-Altschul统计学理论,E-value即相当于统计学中的P值,该值越低则blast结果的显著性越高,因而检出序列越少 E-value对blast结果的影响与比对的数据库大小有关,使用相同的E-value对同一序列进行blast,在大一些的数据库中得到的结果相似性低于小一些的数据库 一般认为,所比对序列中每100bp有96%以上同源,则认为该序列为同源序列 这个百分比标准随着序列长度的增加可适度降低
Innovation: 生物学家常见的思维是通过比对NR的DNA数据库,但这种比对有很大缺点: 一、NR中包括各种动物的DNA信息 二、NR太大,查询及比对耗时太多 三、结果不好
应当使用Reference mRNA Human EST 这个分类清晰 有专门的HUMAN DNA 文库 通过BLAST程序查找同源基因
Perspective: 应用该系统可以解决cDNA文库数据系统、高效的高通量分析。 该分析体系经过进一步完善,构建成为一个cDNA文库的综合分析平台,可以为生物学家提供一个可靠、易用、高效、操作简便的分析工具。 该体系的建立和完善有助于其他相关综合分析体系的构建。
上一篇:基因组文库和cDNA文库的构建及筛选(Construction and Screening of Genomic and cDNA 下一篇:cDNA的筛选 |