BLAST:基本局部比对搜索工具


关键词

BLAST,生物信息学,启发式算法,程序,生物序列,蛋白质,核苷酸,数据库序列,最大片段对,比对,DNA 和 RNA 序列。

简介

BLAST(基本局部比对搜索工具)在生物信息学中,是一种用于比较主要生物序列信息的算法和程序,例如蛋白质的氨基酸序列或 DNA 和 RNA 序列的核苷酸。

BLAST 搜索使研究人员能够将目标蛋白质或核苷酸序列与序列库或数据库进行比较,并识别与上述字母表在一定阈值以上相似的数据库序列。它使用的启发式算法比其他方法(例如计算最佳比对)快得多。BLAST 可在 NCBI 网站上通过网络使用。根据查询序列和目标数据库,可以使用不同类型的 BLAST。

流程

BLAST 通过查找两个序列之间的短匹配来查找相似的序列。这种查找相似序列的过程称为种子生成。在第一次匹配之后,BLAST 开始进行局部比对。BLAST 的启发式算法在感兴趣的序列和来自数据库的命中序列或序列之间定位所有常见的三个字母的词。然后将此结果用于构建比对。

这些词必须满足一个要求,即在使用评分矩阵进行比较时,其得分至少为阈值 T。阈值得分 T 决定了特定词是否将包含在比对中。如果此得分高于预定的 T,则比对将包含在 BLAST 给出的结果中。如果得分低于此预定的 T,则比对将停止扩展,防止将比对较差的区域包含在 BLAST 结果中。

算法

BLAST 的主要思想是,在统计上显著的比对中通常包含高分段对 (HSP)。BLAST 程序的速度和相对良好的准确性是 BLAST 程序的关键技术创新之一。BLAST 算法(蛋白质到蛋白质搜索)的概述如下。

  • 去除查询序列中的低复杂度区域或序列重复。

  • 创建查询序列的 k 字母词列表。

  • 列出可能的匹配词。

  • 将剩余的高分词组织到一个有效的搜索树中。

  • 对查询序列中的每个 k 字母词重复步骤 3 到 4。

  • 扫描数据库序列以查找与剩余的高分词完全匹配。

  • 将精确匹配扩展到高分段对 (HSP)。

  • 列出数据库中所有得分足够高以被考虑的 HSP。

  • 评估 HSP 得分的显著性。

  • 将两个或多个 HSP 区域合并成更长的比对。

  • 显示查询和每个匹配的数据库序列的带间隙的 Smith-Waterman 局部比对。

  • 报告预期得分低于阈值参数 E 的每个匹配。

程序

BLAST 是一系列程序,可以下载并作为命令行实用程序“blastall”运行,也可以通过网络免费访问。现在有少量不同的 BLAST 程序可用。这些不同的程序在查询序列输入、搜索的数据库以及比较的内容方面有所不同。这些程序及其详细信息列在下面。在这些程序中,BLASTn 和 BLASTp 使用最为广泛。

核苷酸-核苷酸 BLAST (blastn)

给定一个 DNA 查询,返回用户指定的 DNA 数据库中最相似的 DNA 序列。

蛋白质-蛋白质 BLAST (blastp)

给定一个蛋白质查询,返回用户指定的蛋白质数据库中最相似的蛋白质序列。

位置特异性迭代 BLAST (PSI-BLAST) (blastpgp)

此程序用于查找蛋白质的远亲。与标准的蛋白质-蛋白质 BLAST 相比,PSI-BLAST 在拾取远距离进化关系方面更加敏感。

核苷酸 6 帧翻译-蛋白质 (blastx)

此程序将核苷酸查询序列的六帧概念翻译产物与蛋白质序列数据库进行比较,以在基因组序列中找到蛋白质编码基因,或查看 cDNA 是否与已知蛋白质相对应。

核苷酸 6 帧翻译-核苷酸 6 帧翻译 (tblastx)

此程序是 BLAST 家族中最慢的程序。tblastx 的目的是查找核苷酸序列之间非常遥远的关系。

蛋白质-核苷酸 6 帧翻译 (tblastn)

此程序将蛋白质查询与核苷酸序列数据库的所有六个阅读框进行比较。它可用于将蛋白质映射到基因组 DNA。

大量查询序列 (megablast)

当通过命令行 BLAST 比较大量输入序列时,“megablast”比多次运行 BLAST 快得多。

BLAST 的用途

BLAST 可用于多种用途。其中包括识别物种、定位结构域、建立系统发育、DNA 测绘和比较。

识别物种

正确识别物种或查找同源物种。这在处理来自未知物种的 DNA 序列时非常有用。

定位结构域

可以将蛋白质序列输入 BLAST,以在感兴趣的序列中定位已知的结构域。

建立系统发育

通过 BLAST 收到的结果,可以使用 BLAST 网页创建系统发育树。仅基于 BLAST 的系统发育树可靠性较低。

DNA 测绘

在处理已知物种并希望在未知位置对基因进行测序时,BLAST 可以将感兴趣的序列的染色体位置与数据库中的相关序列进行比较。NCBI 为此目的构建了一个名为“Magic-BLAST”的工具,该工具基于 BLAST。

比较

在处理基因时,BLAST 可以定位两个相关物种中的常见基因,并可用于将一个生物体的注释映射到另一个生物体。

结论

BLAST 已成为生物学家的必不可少的工具。其速度和灵敏度使科学家能够将核苷酸和蛋白质序列与单个序列和大型数据库进行比较。最重要的是,BLAST 有助于使生物信息学分析民主化,并使其能够通过互联网供任何研究人员使用。

BLAST 及其衍生应用程序使科学家能够预测整个基因组中基因和蛋白质的功能,在计算机上回答实验室或现场无法回答的问题。BLAST 方法允许构建用于数据库搜索的极快速程序,以进一步利用其易于进行数学分析的优势。

更新于: 2023年5月18日

459 次浏览

开启您的 职业生涯

通过完成课程获得认证

开始学习
广告