参考基因组该怎么下载?

2016-01-08    编辑:诺禾致源

参考基因组具备最完整的信息(基因区、非编码区、调控区),
是进行基因组学、转录组学和表观组学研究的先决条件。
大量已公布的参考基因组数据,成为科研工作者的巨大宝库。
以下对各数据库查找参考基因组的方法作简单介绍,供学习和参考。

Ensembl

由 European Bioinformatics Institute(EBI)与 Wellcome Trust Sanger Institute(WTSI)共同合作开发的 Ensembl 数据库覆盖物种广,信息更新快;随着技术发展和研究的深入,有的物种基因组会有多个版本,Ensembl 数据库以最及时的更新受到广大研究者的青睐。

查看方法演示>>

NCBI

NCBI(National Center for Biotechnology Information)即美国国立生物技术信息中心,其在线平台信息全面且功能强大,1992年10月承担了建立并维护 GenBank DNA 序列数据库的责任。

查看方法演示>>

UCSC

由 University of California Santa Cruz (UCSC) 创立和维护的 UCSC 数据库,但是覆盖物种信息有限,而且信息更新相对滞后(如基因组版本更新),所以 UCSC 数据库使用率稍逊色于前两个数据库。

查看方法演示>>

Private Database

在以上数据库查找不到的参考基因组,还可以尝试一些
Private Database,如:

植物参考基因组数据库 Phytozome
查看数据库>>

小鼠基因组数据库 MGD
查看数据库>>

拟南芥基因组数据库 ZFIN
查看数据库>>

......

注意事项

1.

数据库的选择还要根据具体物种信息来判断,各个数据库各有优势。如:有的基因组版本较新,序列信息更完整,但有的注释信息可能不完全。所以,数据库的选择,以及基因组版本的选择,需要综合考虑。

2.

真核生物,基因组由多条染色体构成。NCBI 数据库中每个染色体的基因序列对应一个文件,而 Ensembl 的 toplevel.fa.gz 文件汇总了所有染色体基因 信息于一个文件。Ensembl 数据库提供的文件更方便使用。

3.

没有参考基因组,可以对该物种进行全基因组 de novo 测序,并进行拼接组装,从而得到该物种全基因组序列图谱。