比较和比对生物序列有什么用?
比对基于这样一个事实:所有生物体都与进化相关。这意味着在进化上彼此更接近的物种的核苷酸(DNA、RNA)和蛋白质序列必须表现出更高的相似性。
比对是将序列排列起来以获得最大程度一致性的步骤,这也定义了序列之间相似性的程度。如果两个序列来自共同祖先,则这两个序列是同源的。
通过序列比对获得的相似性程度有助于确定两个序列之间同源性的可能性。这种比对有助于确定进化树(也称为系统发育树)中不同物种的相对位置。
生物序列比对的问题可以定义如下:给定两个或多个输入生物序列,识别具有高度保守子序列的相同序列。如果要比对的多个序列只有两个,则称为成对序列比对;否则,则为多序列比对。
要区分和比对的序列可以是核苷酸(DNA/RNA)或氨基酸(蛋白质)。对于核苷酸,如果两个符号完全相同,则它们可以比对。但对于氨基酸,如果两个符号完全相同,或者如果一个可以通过自然界中出现的替换从另一个转变而来,则它们可以比对。
比对分为两种类型:局部比对和全局比对。前者仅比对序列的某些区域,而后者需要比对序列的整个长度。
对于核苷酸或氨基酸,插入、缺失和替换在自然界中以多种概率出现。替换矩阵定义了核苷酸或氨基酸替换的概率以及插入和缺失的概率。
通常使用间隙字符“−”来表示不需要比对两个符号的位置。为了计算比对的质量,通常会定义一个评分系统,该系统通常将相同的符号计为正分,将间隙计为负分。
分数的代数和作为比对分数。比对的目标是在一些可能的比对之间获得最大分数。然而,找到最佳比对的成本非常高。因此,已经开发了几种启发式技术来找到次优比对。
基因组是一个生物体的全部基因组。当需要蛋白质时,相应的基因会被复制到RNA中。RNA是核苷酸链。DNA指导合成多种RNA分子,每种分子在细胞功能中都具有特定的作用。
广告