DNA注释:基因注释涉及的步骤和使用的工具
关键词
DNA注释,基因组注释,遗传物质,基因组位置,基因组数据库,数据库记录,真核基因组,注释工具,原核基因组。
简介
DNA注释或基因组注释是识别基因组中基因和所有编码区域的位置并确定这些基因功能的过程。注释是通过解释或评论添加的注释。一旦基因组被测序,就需要对其进行注释以理解其意义。
对于DNA注释,先前未知的遗传物质序列表示通过将基因组位置与内含子-外显子边界、调控序列、重复序列、基因名称和蛋白质产物相关联的信息进行丰富。此注释存储在基因组数据库中,例如小鼠基因组信息学、果蝇数据库和线虫数据库。
国家生物医学本体论中心开发了基于这些记录的文本描述自动注释数据库记录的工具。真核基因组中的基因可以使用各种注释工具(如FINDER)进行注释。现代注释管道可以支持用户友好的Web界面和软件容器化,例如MOSGA。原核基因组的现代注释管道是Bakta、Prokka和PGAP。
基因注释涉及的步骤
基因组注释包括三个主要步骤。
- 识别基因组中不编码蛋白质的部分。
- 识别基因组中的元素,这个过程称为基因预测。
- 将生物信息附加到这些元素。
自动注释工具试图通过计算机分析来执行这些步骤,而不是手动注释(整理),手动注释涉及人类专业知识。理想情况下,这些方法在同一个注释管道中共存并相互补充。
一种简单的基因注释方法依赖于基于同源性的搜索工具(如BLAST)来搜索特定数据库中的同源基因;然后使用所得信息来注释基因和基因组。然而,随着信息添加到注释平台,手动注释者能够分解赋予相同注释的基因之间的差异。一些数据库使用基因组上下文信息、相似性评分、实验数据和其他资源的整合来通过其子系统方法提供基因组注释。其他数据库(Ensembl)依赖于已整理的数据源以及其自动化基因组注释管道中的一系列不同的软件工具。
DNA注释有两种类型
- 结构注释包括基因组元件的识别。查找ORF、编码区域和调控基序的位置,以及确定基因结构,都是结构注释的例子。
- 功能注释包括通过确定其具有的生化和生物学功能、参与的调控和相互作用网络以及表达来将生物信息附加到基因组元件。
这些步骤可能涉及生物实验和计算机分析。基于蛋白质组学的方案利用来自表达蛋白质的信息(通常来源于质谱)来改进基因组注释。已经开发了各种软件工具,允许科学家查看和共享基因组注释,例如MAKER。
基因组注释是一个活跃的研究领域,涉及生命科学界中的几个不同组织,这些组织将其努力的结果发布在可公开获取的生物数据库中,这些数据库可以通过网络和其他电子方式访问。
基因注释中使用的工具
首先,需要识别基因组中编码蛋白质的结构。注释的这一步称为“结构注释”。它包括识别和定位开放阅读框(ORF)、识别基因结构和编码区域以及调控基序的位置。Galaxy包含多个用于结构注释的工具。基因预测工具有Augustus(用于真核生物和原核生物)和glimmer3(仅用于原核生物)。
Augustus用于基因预测。基因组序列用作FASTA文件中的输入,并通过选择正确的模式生物,获得gff(通用特征格式)输出。Augustus将提供三个输出文件:gff3、编码序列(CDS)和蛋白质序列。
功能注释:功能基因注释是指蛋白质的生化和生物学功能的描述。例如,可以注释基因的可能分析包括
- 相似性搜索
- 次级代谢产物的基因簇预测
- 蛋白质序列中跨膜结构域的识别
- 查找基因本体术语
- 通路信息。
应用
疾病诊断
基因本体正在被研究人员用来建立疾病-基因关系,因为GO有助于识别新的基因,在不同条件下(例如患病与健康)识别其表达、分布和功能的变化。
生物修复
一些细菌菌株中参与烃降解的各种分解代谢酶是由位于其可移动遗传元件(MGE)中的基因编码的。这些元件的研究在生物修复领域非常重要,因为最近已经寻求接种具有这些MGE的野生型或基因改造菌株以获得这些烃降解能力。
结论
讨论了基于同源性检测的基因组注释的传统方法以及在基因组上下文分析的统称下统一的新方法。尽管可以预测每个测序原核基因组中绝大多数基因的功能,但在一定精度水平上,但目前的注释充满了不准确性、不一致性和不完整性。
设计为基因组注释工具的专业数据库似乎能够极大地改善这种情况,即使不能完全解决注释问题。此类数据库的原型已经存在,并且它们的功能及其广泛的增长很快就会得到保证。