DNA测序的覆盖度及其类型


关键词

DNA测序,下一代测序,遗传学,测序成本,研究设计,稀有变异,核苷酸。

介绍

覆盖度是衡量DNA测序深度或完整性的几个指标之一,在遗传学中更具体地表达。覆盖度描述了唯一映射到参考基因组并“覆盖”已知基因组部分的测序读数的数量。理想情况下,唯一比对的测序读数均匀分布在参考基因组中,从而提供均匀的覆盖度。

映射到已知区域的测序读数的数量也是覆盖度的一个重要组成部分。覆盖度并不均匀,由于各种因素,在感兴趣的基因区域可能代表性不足。这些因素包括基因组本身很复杂,包含基因、非编码DNA、重复序列和其他元素,这些元素可能使测序读数难以比对到正确的基因组坐标。

覆盖度定义为与参考基因组中特定基因座比对的样本核苷酸碱基序列的数量。需要足够的正确映射的读数才能找到并正确识别基因突变。

通过高测序覆盖度,研究人员可以找到“大海捞针”中的针,能够识别低频突变或发现异质样本(如肿瘤活检)中的突变。覆盖度不足,无论是由于读数不足还是测序读数映射不正确,都会导致无法检测到感兴趣的变异。

覆盖度的类型

1. 序列覆盖度

序列覆盖度(或深度)是指包含重建序列中给定核苷酸的唯一读数的数量。深度测序指的是针对序列每个区域的大量唯一读数这一普遍概念。

基本原理

即使每个单个核苷酸的测序精度非常高,但基因组中数量巨大的核苷酸意味着,如果只对单个基因组测序一次,将会有大量的测序错误。基因组中的许多位置包含稀有的单核苷酸多态性(SNP)。因此,为了区分测序错误和真实的SNP,需要通过多次测序单个基因组来进一步提高测序精度。

超深度测序

术语“超深度”有时也指更高的覆盖度(>100倍),这允许检测混合群体中的序列变异。

转录组测序

转录组的深度测序,也称为RNA-Seq,提供了特定细胞类型、组织或器官中任何时间点存在的RNA分子的序列和频率。计算由单个基因编码的mRNA的数量,可以指示蛋白质编码潜力,这是表型的主要贡献者。改进RNA测序方法是实验方法和计算方法方面积极的研究领域。

计算

整个基因组的平均覆盖度可以根据原始基因组的长度(G)、读数的数量(N)和平均读长(L)计算为N × L/G。此参数还可以估算其他数量,例如基因组被读数覆盖的百分比(有时也称为覆盖宽度)。鸟枪法测序中需要高覆盖度,因为它可以克服碱基识别和组装中的错误。DNA测序理论主题探讨了此类数量之间的关系。

2. 物理覆盖度

物理覆盖度,读数或读数对的累积长度,表示为基因组大小的倍数。有时会区分序列覆盖度和物理覆盖度。其中序列覆盖度是碱基被读取的平均次数,物理覆盖度是碱基被读取或由配对读数跨越的平均次数。

3. 基因组覆盖度

基因组覆盖度,基因组中所有碱基对或基因座被测序覆盖的百分比。就基因组覆盖度和准确性而言,全基因组测序大致可以分为以下两种:

  • 草图序列,以约99.9%的准确度覆盖约90%的基因组。

  • 完成序列,以约99.99%的准确度覆盖超过95%的基因组。

根据此定义,产生真正高质量的完成序列非常昂贵。因此,大多数人类“全基因组测序”结果都是草图序列。

结论

拥有足够的覆盖度对于确保能够高置信度地研究感兴趣的基因组区域显然非常重要。对于覆盖度很少或没有覆盖度的区域,研究人员经常增加其研究的测序通量。也就是说,获得更多测序读数和数据以通过蛮力方法增加基因区域的覆盖度。

然而,这种方法效率低下,会增加成本,并且不会解决覆盖度不足的根本原因。通过增加通量,具有足够覆盖度的基因组区域现在将被过度表示,读数实际上是被浪费了。以前覆盖度为零的区域可能仅仅通过测序更多样本并不能获得覆盖度。解决覆盖度的一种更有效的方法是使用靶向测序方法。这提供了确保足够覆盖度的优势,包括以前可能无法访问的基因组部分,同时降低测序成本。

更新于:2023年5月18日

129 次浏览

开启你的职业生涯

完成课程获得认证

开始学习
广告