《Nature Biotechnology》刊登基因组组装技术短评

2013-11-06    编辑:诺禾致源
       新一代的测序技术和组装软件给基因组测序领域提供了便捷、经济、有效的研究思路和手段,但是这些组装技术的优势究竟在哪里?
       
       2012年4月,李瑞强等就基因组组装技术的一篇评论文章在《Nature Biotechnology》上发表。文章介绍了领域内比较流行的一系列基因组组装软件,同时概述了最近发表在《Genome Research》上的两篇评测组装软件的文章,最后提出现有基因组组装软件的不足和基因组组装技术未来的发展方向。

       基因组组装是一个复杂的过程。影响组装效果的因素非常多,除了制定的测序策略,测序数据质量,测序的不均匀性以及所使用的组装软件;基因组自身的原因如重复序列(常见在较大的基因组中)也会显著影响到组装的效果(由于短reads不能跨过较长的重复区域)。组装软件通常实现如下的几个步骤:测序数据的纠错,构建连续的共识序列(contig),将contig连接成不连续的脚手架序列(scaffold),填补scaffold中的空白区域(gap)。由于新一代的测序技术通常产出的reads长度(35-150bp)远短于传统的sanger测序的reads长度(500-1000bp),所以,现今的组装步骤中最具难度的是contig的构建。目前,通常通过较高的测序深度来弥补其reads较短的缺陷,但是由于需要计算每一对reads之间的重叠所带来的计算复杂度和重复区域的reads带来的错误,也给组装带来很大的挑战。第一个完全依靠illumina技术(短reads)组装出来的是大熊猫的基因组(2010年),此基因组的组装完全没有依靠参考序列,称为denovo组装。

       测序技术的发展会很大程度上有助于改善基因组组装效果。DNA扩增的方法使微量样本的测序成为可能。新的测序技术如PacBio 和 Oxford Nanopore会产生更长的reads,但测序的错误率非常高。新的光学比对(optical mapping)的方法比传统的方法更为有效,但仍在开发之中。

       现有组装软件的另一个关键的缺陷是组装结果不能体现二倍体和多倍体基因组各单倍体之间的差异。以二倍体基因组为例,几乎所有的组装软件都将杂合突变丢掉而组装成一个没有单核苷酸多态性(single-nucleotide polymorphisms),插入(insertion),缺失(deletion)和结构变异(structure variation)的单倍体共识序列。而且对于多倍体或者杂合度较高的基因组,用目前的组装软件仍无法组装出一条较长的单倍体共识序列。

       总而言之,由于新的测序技术的发展,基因组组装仍然是一个快速发展的领域。我们不能确定未来哪一种技术会占有主导地位,但是我们能够确定的是在未来几年,测序效率会更高而成本会进一步降低。这将大大促进基因组相关的研究的发展。同时denovo组装的方法有助于发现个体或细胞之间的更多的结构变异,在此过程中的更多更复杂的测序序列数据也将推动效果和性能更好的组装软件的开发。


论文链接:

Fan, W., Li, R. , (2012) “Test driving genome assemblers.” Nature Biotech [news & views] 30:330-331. doi: 10.1038/nbt.2172.