正在阅读:曙光生物基因序列研究解决方案曙光生物基因序列研究解决方案

2007-07-26 17:15 出处: 作者:曙光供稿 责任编辑:gongjianhui

  3.基因序列比对和数据库搜索
     
  比较是科学研究中最常见的方法,通过将研究对象相互比较来寻找对象可能具备的特性。在生物信息学研究中,比对是最常用、最经典的研究手段。
     
  最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。
     
  此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。
     
  比对还是数据库搜索算法的基础,将查询序列与整个数据库的所有序列进行比对,从数据库中获得与其最相似序列的已有的数据,能最快速的获得有关查询序列的大量有价值的参考信息,对于进一步分析其结构和功能都会有很大的帮助。近年来随着生物信息学数据大量积累和生物学知识的整理,通过比对方法可以有效地分析和预测一些新发现基因的功能。

  4.序列比对软件
     
  为了提高搜索的速度和效率,通常的序列搜索算法都进行了一定程度的优化,如最常见的FASTA工具和BLAST工具。
     
  FASTA是第一个被广泛应用的序列比对和搜索工具包,用于序列两两比对,它包含若干个独立的程序,将一条序列与另一条序列进行比较或在数据库中查找同源序列并输出。
     
  BLAST是现在应用最广泛的序列相似性搜索工具,用于序列两两比对,由NCBI研制。BLAST系统对于生物基因序列数据在计算机中的表达和处理作了许多的研究,建立在严格的统计学基础之上。由于功能强大,检索速度快, BLAST工具流行于世界上几乎所有的生物信息中心。
     
  基因序列比对程序需要处理的数据规模不断增大,而且,程序运行时间也不能满足要求,需要采用并行处理的方法。
     
  Blast在进行检索时采用的方法是循环匹配所有的记录。只需将这种循环匹配平均地分配到并行系统的各个节点上,各个节点分别执行各自的匹配操作,最后将匹配的结果统计起来就可以初步实现Blast程序的并行操作。对Blast实行并行化实际上就是将整个检索空间分解成若干个子空间,为各个子节点分配一个子空间,子节点在各自的子空间进行检索,检索完成后,由主控节点归纳统计各个子节点上的结果,然后生成并打印最后的统计结果。 
    
  mpiBLAST就是对NCBI BLAST的并行化,基于mpi并行环境,可以免费下载使用。
     
  使用mpiBLAST,就可以在安装了mpi环境的计算机做并行搜索。
     
  使用mpiBLAST的原因:
        
  1,可以在查询大数据库时实现较好的加速比(线性,甚至超线性加速比);
        
  2,在大量的批处理查询请求时,缩短查询时间。
      
  目前使用最广泛的多序列比对程序是CLUSTALW(它的PC版本是CLUSTALX)。
      
  CLUSTALW是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。
       
  CLUSTALW的程序可以自由使用,在NCBI的FTP服务器上可以找到下载的软件包。CLUSTALW程序用选项单来逐步指导用户进行操作,用户可根据需要选择打分矩阵、设置空位罚分等。EBI的主页还提供了基于Web的CLUSTALW服务,用户可以把序列和各种要求通过表单提交到服务器上,服务器把计算的结果用Email返回用户。

键盘也能翻页,试试“← →”键

为您推荐

加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多

服务器论坛帖子排行

最高点击 最高回复 最新
最新资讯离线随时看 聊天吐槽赢奖品