883玩网:您身边最放心的安全下载站! 软件发布

您当前所在位置:首页 > 软件下载 > 应用软件 > 教育教学 → 生物多序列研究SeaView

生物多序列研究SeaView

生物多序列研究SeaView

版本

  • 软件大小:4 MB
  • 软件语言:简体中文
  • 软件类型:国产软件
  • 软件授权:免费软件
  • 更新时间:2017-02-22
  • 软件类别:教育教学
  • 应用平台:WinXP,Win7,Win8,windows10,其他
网友评分:

相关软件

4 MB

软件介绍人气软件精品推荐相关文章网友评论下载地址

这是生物多序列研究SeaView,图形化多序列比对编辑器,能够读各种比对格式(MSF, CLUSTAL, FASTA, PHYLIP, MASE),可手动编辑队列

作者简介

Richard Durbin,1987年获得博士学位,研究方向为蠕虫神经系统的发育与组织。英国Sanger中心生物信息部负责人,先后参与线虫基因组和人类基因组项目、WormBase线虫模式生物数据库ACEDB基因组数据库、Pfam蛋白质结构域数据库以及Ensembl脊椎动物基因组注释。与SeanEddy、Anders Krogh以及Graeme Mitchison一起撰写了Biological Sequence Anaivsis一书,并于1998年由剑桥大学出版社出版。
Sean Eddy,Janelia Farms的17个研究小组负责人之一,部分隶属于霍华德·休斯医学研究会,当前致力于计算基因组序列分析,使用概率论建模技术开发新算找DNA、RNA和蛋白质序列的特征。他的主要兴趣一个是识别新的结构和催化RNA,另一个是识别远缘的蛋白质同源序列。
Anders Krogh,哥本哈根大学生物信息中心负责人、生物信息学教授,因David Haussler——起率先在生物信息学领域使用隐马模型而闻名。作为Biological Sequence Analvisis一书的作者之一。他同时也是另一本更早一些的神经网络教科书的作者之一。他当前的研究兴趣包括启动子分析、非编码RNA,基因预测以及蛋白质结构预测。
Graeme Mitchison,剑桥大学分子生物学实验室教员,量子计算研究者和计算生物学家,从事序贯弱度量、deFinetti定理量子等研究。

相关优点

在生物信息学中
, 序列是最基本的数学模型, 它可以用来描述核酸分子和蛋白质分子的一级结构。对序列的操作有助于对生物大分子的研究, 尤其是对序列进行比对( alignment)。多序列比对问题是计算分子生物学中最基本的问题之一。通过多序列比对, 研究者可以挖掘出更多的保守区间与结构信息。因此它是许多问题的基础, 比如片断组装、基因发现、构建进化树、PCR 引物设计、多态位点( SNP)的寻找、预测同源序列的二级结构、蛋白质相互作用预测等。
由于人工比对的复杂性和生物序列中的功能不确定性, 无法用生物意义统一地衡量比对的效果。因此人们主观地根据比对后各个序列之间差异的大小来衡量。用来计算差异性的数学模型(目标函数)主要有三种: 比对和函数( sum - of- pairs functions)、一致性函数( consensus functions)和树函数( tree functions) , 其中使用最普遍的是比对和函数, 其分值一般简称为SP值。目前的多序列比对算法都旨在寻找具有最优SP值的比对, W ang 等已经证明该问题是一个NP难题; 他们同时证明了其他几种主要的目标函数最优化问题均是NP 难题。
对于这种重要的难题, 目前的处理方法主要是: 近似算法、启发式方法和引入其他信息。近似算法的思想是: 既然无法在多项式时间内找到最优解, 那么设法在多项式时间内找到一个次优解, 并且证明该次优解与最优解间的距离在一定范围内。启发式方法的主要思想是: 既然无法在多项式时间内遍历整个空间, 那么在有限的时间内遍历尽量广泛、最优解存在可能性大的空间。虽然无法证明启发式方法解的收敛区域, 但实验证明启发式方法往往可以得到较好的效果。另外, 针对不同NP难题的实际背景, 可以结合如相关的领域知识, 从而简化问题。对于生物大分子序列的比对问题, 如果知道其比对后的长度和部分保守区间, HMM 模型通常可以被应用。由于上世纪90年代人类基因组计划的实施, 在国际上对多序列比对问题的研究比较早, 而且方法较为成熟。目前主要的软件有c lusta l系列和T- coffee系列。下面详细介绍各种多序列比对方法。
1 组合优化算法
作为双序列比对的扩展, 最原始的多序列比对算法仍源于动态规划。解决双序列比对时, 动态规划需要建立一个二维表, 得到最优值后进行回溯。扩展成n个序列后, 只需要把二维表扩展成n维表,以同样的方式填写并回溯即可。对于2个长为n的双序列比对, 动态规划的时间复杂性为O ( n2 ); 对于k个长为n的多序列比对, 动态规划的时间复杂性为O ( nk ) , 这种指数级别的时间复杂性, 在处理实际问题时是无法应用的。于是出现了树比对和星比对来近似地代替动态规划。
树比对和星比对的本质思想都是将多序列比对问题转化为多个双序列比对问题。树比对是受序列进化的启发, 它认为对进化关系重构的过程即是对序列比对的过程。在树比对过程中, 先对所有的序列进行两两比对并计算它们的相似性分数值, 确定每两个序列之间的距离。将距离最小的两个序列比对, 得到一个新的序列(与其他序列不同的是该序列每位上的元素不是一个字母, 而是多个字母及各自所占的比例)。这样k 个序列就变成了k - 1 个序列, 重复这个过程, 直到k个序列变成了1 个序列, 则这个序列就是k 个原始序列的多序列比对。这种思想也被称为 渐进法! ( progressive) , 类似于最小代价生成树中的K ruska l算法。作为程序的副产物, clustal可以输出一颗进化树。树比对的时间复杂性O( k3 n2 )。
在处理大规模生物数据时, 树比对的时间开销仍然过大。于是有人将树的拓扑结构简化, 将其视为只有一个内部节点, 其他都是叶结点的星。因此这种特殊的树比对算法被称为星比对, 有时也称为中心比对、表决比对。它认为在树比对中每次建立距离表都花费了大量时间, 并不一定要找两个距离最近的序列比对, 只要找到一个 中心序列!,该序列与其他序列的相似程度最高, 然后其他所有的序列都与中心序列进行比对, 然后根据中心序列的变化再将这些双序列比对的结果合并, 得到多序列比对的结果。星比对操作简单, 时间复杂性只有O( k2 n2 )。。星比对方法虽然在多项式时间内可以完成, 仍然不能处理大规模数据, 比如基因组数据。如果多个序列之间相似度高, 则可以利用关键字树方法改进星比对, 从而在线性时间内完成对多个相似序列的比对。该法可以有效地应用于比较同一物种个体的差异, 进而发现多态位点。
树比对和星比对都秉承着 一旦为空格, 始终为空格!的思想, 即在双序列比对时加入了空格, 在后面的过程中该空格将一直被保留。这是树比对和星比对最大的缺憾, 为了避免这种问题, 大量的启发式算法被应用。
2 启发式方法
遗传算法是最简单的一种优化算法。当变量变化的空间较大、无法穷举时, 遗传算法作为一种有方向性的遍历, 经常被优化问题的研究者所采用。多序列比对问题在本质上是对空格的添加。可以把一个多序列比对的SP 值看作是适应度函数, 要寻找的就是一种空格添加的方法, 使适应度函数达到最优。具体的选择、交叉、变异等操作有所不同,针对空格的特殊性, 一些研究者也填入了其它的遗传操作。遗传算法不但在限定时间内可以给出近似优化的解, 而且易于被并行化使用。
在将遗传算法应用于多序列比对时, 有研究者发现由于交叉和变异操作的随机性, 导致了优化过程过慢。因此有人利用粒子群优化算法来处理上述问题中的空格位置, 得到了较好的效果。粒子群算法将每一种比对视为一个粒子, 在所有粒子中比对得到SP值最优的粒子被认为是最优粒子, 于是所有的粒子朝全局最优粒子的位置和历史最优位置运动, 通过不断地更新全局和历史的最优位置, 直至找到满意的结果。
在启发式地搜索解空间时, 通常需要开始的时候搜索的步长大一些, 而接近优化值时步长小一点。因此通常在各种方法中融合入模拟退火的思想。多序列比对问题中也有模拟退火的应用。A* 算法也是一种基本的人工智能算法。它用合理的启发式函数限制多序列比对的搜索空间, 进而使用动态规划方法。A* 算法的优势在于处理图搜索问题, 而多序列比对问题可以归结为在有向无环图中寻找给定两点间的最短路径。但是A* 算法的应用最大的困难在于预测函数和目标函数的选取。如果选取不当, A* 算法将等同于动态规划。而迄今为止还没有完全令人满意的选取方法, 现在还大都依靠人的经验来选取。
还有许多启发式方法(如蚁群算法等), 它们同A方法一样, 尽管在应用到多序列比对问题上作了许多尝试, 但中间还存在着一些难处理的问题, 因而还没有形成基于这些方法的主流软件。因此本文不对这些方法作过多的讲述。与双序列比对一样, 多序列比对的方法建立在某个数学或生物学模型之上。因此, 多序列比对的结果也没有绝对正确和绝对错误之分, 而只能认为所使用的模型在多大程度上反映了序列之间的相似性关系以及它们的生物学特征。以上两类方法都是基于优化SP值的, 下面我们将介绍另外一类方法。与其说这是一类方法, 不如说这是一种模型, 因为它从本质上不同于SP值的优化。
3 基于概率模型的方法
组合优化算法和启发式算法都是基于对目标函数的优化。然而当涉及到插入、删除操作时, 像SP值等这种直观上的目标函数无法解释其生物意义,无论参数如何选取。因此, 有研究者从概率模型来对多序列比对进行优化。
概率模型并不解释每种比对的生物意义, 它的思想是从已知的生物比对中学习概率。它认为: 具有生物学意义的比对必定以高概率出现。当HMM(隐马尔可夫模型)在基因发现(寻找CG 岛、寻找TATA- box 等)上获得成功后, 研究者便把相同的思想应用于多序列比对问题。
使用HMM处理多序列比对的基本过程是:
(1) 人为构建HMM框架。这里需要设定的是比对后的长度, 一旦设定后其基本框架如图1所示。对于该长度, 一般选取要比对序列的平均长度, 也有部分HMM可以适当地调节长度。
(2) 用比对好的序列训练HMM 的参数, 包括每个状态的转移概率和发射概率。这一步主要使用B aum-W elch算法。
( 3) 依次将需要比对的序列输入给HMM, 返回其最优状态序列, 从而完成多序列比对。寻找最优状态序列一般使用基于动态规划的V iterb i算法。HMM 进行多序列比对的优点在于: 它可以结合入更多的生物信息, 比如二级结构。这些信息通过影响HMM中的参数(转移概率和发射概率)来影响多序列比对的结果。这也是这种方法深受生物学家欢迎的原因之一。但HMM 的不足在于: 首先它要对比对后的长度有一个准确的估计, 如果在HMM的拓扑结构设置不当的话, 会导致比对的结果非常不好; 另外HMM 的时间复杂性高, 其参数的训练过程需要对大量的浮点型小树进行精确运算, 不适合比对大规模数据(例如在基因组级别上的比对)。
4 相关软件
上面讲述了多种多序列比对的算法及模型, 利用这些算法分别产生了不同的软件。由于机理不同, 对于同一组序列, 各种软件给出的结果往往相差很大。对于非专业的使用者, 尤其是生物背景的研究人员, 很难处理多组结果, 往往随机选取一组。针对这种情况, 本文总结了几种主流软件的相关信息与优缺点, 如表1所示。
表1 主要的多序列比对软件比较
对于上述多序列比对软件, C edric从方法上进行了分析, 并详细地总结了每种软件的优缺点和适用情况。Julie 等人使用BA liBASE 数据库中标嘉淦鼾的序列进行测试, 系统地衡量了目前各个多序列比对软件的效果。
当统计一组序列的替换率时,多重序列比对(multiple sequence alignment)通常比两两比对更合适,因为多重比对尽可能多地考虑到了序列中的空位。进行多重比对最直接的技术就是适当改进动态规划算法。对于n条序列的比对,可以用一个n维的矩阵来替代Needleman-Wunsch算法中使用的二维矩阵。但是,随着比对序列数量的增大,多重比对算法的计算复杂度快速增加。因此,利用启发式进行比对的方法被提出来。算法中包括CLUSTAL算法。CLUSTAL算法是由D.G.Higgins和P.M.Sharp在1998年首次提出的,这种算法开始时先比对亲缘关系较近的序列,然后再将其他亲缘关系较远的序列加入其中,从而产生一个完整的多重比对序列。首先该算法构建一棵系统发生树,以此来确定被比较序列间相似的程度。有了这棵树的指导,然后对于关系密切的序列利用动态规划算法进行两两比对。
在多重序列比对中,打分矩阵的选择是一个比较重要的问题。一些矩阵适用于关系较近的序列,例如PAM-1和BLOSUM-90,而另一些矩阵,例如PAM-1000和BLOSUM-35,可能更适合那些亲缘关系较远的序列,使用了不合适的矩阵通常会使比对结果很糟糕。在CLUSTAL算法最新的版本CLUSTALW中,根据序列与亲缘关系最近的那对序列间的差异度,被赋予了权重,而对于空位与空位片段的罚分是根据各条序列的权重来定的,正如打分矩阵的选择。
对于多重序列比对的打分,现在还有一个新的改进,就是允许在两条序列比对的同一位点加入空位。空位位点间的比对得分通常为0.
5 多序列比对研究的发展方向
随着分子生物学研究的深入, 越来越多的问题需要对生物序列进行比对, 从而挖掘出更多有用的信息。大规模高通量的序列比对仍然没有被很好地解决, 更高效的启发式算法和并行算法还将继续被研究下去。在未来多序列比对的研究将更加集中在以下三个方向:
(1)寻找更加高效的优化算法。目前的各种组合算法及启发式算法在本质上都是在寻找一个时间与优化结果的平衡。花费的时间越长, 得到的优化结果越好; 想要得到更好的优化结果, 则需要的算法时间开销越大。因此, 同许多优化问题一样( 比如构建进化树), 在可容忍的时间内, 得到更好的优化结果的研究将一直持续下去, 直到NP问题的解决。
(2)在生物的序列中往往隐含着一定的结构信息, 生物学家在比对序列时通常希望对应的结构能够比对到一起(比如蛋白质序列中螺旋同螺旋比对、片层同片层比对, RNA 序列中茎区同茎区比对、环区域同环区域比对)。这需要一种新的目标函数把序列相似性和结构相似性结合起来, 然而对结构相似性的衡量以及目标函数的选取, 还有待深入的研究。目前已有研究者用结构信息循环修正比对结果, 取得了较好的效果。
(3)越来越多的研究者认识到: 多序列比对不仅是一个有趣的数学问题, 它更是一种实用的生物信息工具。作为一种工具, 它被应用到多个其它问题上(如片段组装、构建进化树、预测大分子结构、寻找基因等)。而针对每一种具体的问题, 对比对又有了具体的限制。因此, SP值将不是唯一的优化衡量标准, 针对具体问题发展具体的多序列比对方法目前已经被大多数研究者所接受。
总之, 随着序列、结构、功能等生物体信息的膨胀, 对多序列比对方法的要求将越来越具体、越来越严格。基于SP值优化的多序列比对算法虽然已经被研究的较为深入, 但基于具体问题的多序列比对算法还有广阔的研究空间。
多序列比对仅是基于核苷酸或氨基酸序列间的相似度,其目的是比对序列中具有结构上或功能上重要性的区域。

相关介绍

双序列比对是序列分析的基础·然而,对于构成基因家族的成组的序列来说,我们要建立多个序列之间的关系,这样才能揭示整个基因家族的特征·多序列比对在阐明一组相关序列的重要生物学模式方面起着相当重要的作用·

《生物序列分析》在结构上大致可以分为四个部分,每个部分所覆盖的问题分别是:二序列联配、多序列联配、系统发育树和RNA结构,具体分为:二序列联配、Markov链与隐马模型、使用HMM的二序列联配、朋于序列家族的列型HMM、多序列联配方法、构造系统发育树和系统发育的概率论方法,《生物序列分析》介绍的列型MM、多序列联配方法、构造系统发育树和系统发育的概率论方法,《生物序列分析》介绍的一些方法将不同的生物信息来源整合到一般的、清晰且可操作的序列分析概率论模型中,有助于研究者深入了解生物序列分析的基础。
《生物序列分析》可供牛物信息学、分子生物学、数学、计算机科学以及物理学专业的研究生或高年级本科生及这些领域的老帅和研究人员参考。

软件截图

生物多序列研究SeaView

相关软件

蛋白质研究DeNovoGUI:这是蛋白质研究DeNovoGUI,一个非常复杂的领域,要求两个训练有素的专业人才和先进的数字工具。在定量方法,在性质上尤其是统计的兴起,导致依赖于用于分析肽项目水平的提高。

标签:

人气软件

下载地址Android版iPhone版Mac版iPad版

  • 生物多序列研究SeaView

  • 883玩网口号:伸出你的我的手 — 分享
    更多

相关文章

网友评论

更多>>猜你喜欢