Corset轻松搞定无参转录组差异基因

2017-03-24    编辑:诺禾致源
Corset特点

无参考基因组的转录组项目分析中,常用方法是利用Trinity软件进行de novo 组装拼接,经过“茧-蛹-蝶”三个步骤,获得转录本序列,这些转录本序列作为后续分析的参考序列。取每条基因中最长的转录本作为unigene,以此进行后续的注释、定量、差异表达分析。再使用获得的差异表达基因,进行GO、KEGG等富集分析,就可以获知与表型相关的信号通路及基因了。但是仅用最长的一条转录本,不能代表全部的isoform,也不能反映出不同样品间isoform的表达变化。unigene的方法甚至会漏掉一些差异表达的isoform, Corset[1]可以解决这个问题(图1)。

图1 Corset原始文献

Corset的优势

以图3为例,ATP5J和GABPA两个基因有一段重叠的部分。当使用无参拼接时,会得到8条转录本,其中3条最长的转录本为拼接引起的假阳性转录本(如cluster b中的转录本)。若使用unigene的方法,根据unigene最长转录本原则,会选取假阳性转录本进行后续分析,这并不准确。而使用Corset聚合“Gene”的方法,可以将这些真实的转录本分离出来(如cluster a和cluster d)(图3)。

图3 Corset优势实例

此外Corset在差异表达分析中也有亮点。表1是以有参考基因组数据为标准,将de novo 拼接数据与该标准进行相关性分析[1],结果越接近1,则数据越接近基于参考基因组的结果(即真实结果)。通过比较de novo 拼接的三种处理,No Clustering为全部转录本数据,unigene为最长的转录本数据,“Gene”为用Corset聚合转录本数据。结果显示“Gene”提供了更准确的差异表达分析结果,尤其是在鸡[2]、人[3]等转录组复杂的物种,而对最小可变剪切酵母[4]影响较小,表明”Gene”的方法对isoform多的物种更具优势(表1)。

表1 差异表达基因log2(Foldchange)的皮尔逊相关性[1]

Corset的原理

Corset是Trinity官方推荐的软件。其在Trinity拼接基础上,根据转录本间Shared Reads将转录本聚合为许多cluster,再结合不同样本间的转录本表达水平及H-Cluster算法,将样本间有表达差异的转录本从原cluster分离,建立新的cluster,最终每个cluster被定义为“Gene”。该方法聚合冗余转录本,并提高差异表达基因的检出率(图2)。

图2 Corset流程图

Corset的应用

Corset已经被用于解决高等动物如转录组复杂生物,海洋生物如三刺鱼、红螯虾,昆虫如白蛉等无参物种的科学研究问题(表2)。

表2 Corset软件的应用情况

参考文献

[1] Davidson N M, Oshlack A. Corset: enabling differential gene expression analysis for de novo assembled transcriptomes[J]. Genome Biology, 2014, 15(7):1-14.

[2] Ayers K L, Davidson N M, Demiyah D, et al. RNA sequencing reveals sexually dimorphic gene expression before gonadal differentiation in chicken and allows comprehensive annotation of the W-chromosome[J]. Genome Biology, 2013, 14(3):1-17.

[3] Trapnell C, Hendrickson D G, Sauvageau M, et al. Differential analysis of gene regulation at transcript resolution with RNA-seq[J]. Nature Biotechnology, 2013, 31(1):46-53.

[4] Nookaew I. A comprehensive comparison of RNA-Seq-based transcriptome analysis from reads to differential gene expression and cross-comparison with microarrays: a case study in Saccharomyces cerevisiae[J]. Nucleic Acids Research, 2012, 40(20):10084–10097.

[5] Hébert F O, Grambauer S, Barber I, et al. Transcriptome sequences spanning key developmental states as a resource for the study of the cestode Schistocephalus solidus, a threespine stickleback parasite[J]. Gigascience, 2016, 5(1):1-9.

[6] Tan M H, Gan H M, Gan H Y, et al. Firstcomprehensive multi-tissue transcriptome of Cherax quadricarinatus (Decapoda:Parastacidae) reveals unexpected diversity of endogenous cellulase[J].Organisms Diversity & Evolution, 2016, 16(1): 185-200.

[7] Petrella V, Aceto S, Musacchia F, et al. De novo, assembly and sex-specific transcriptome profiling in the sand fly Phlebotomus perniciosus, (Diptera, Phlebotominae), a major Old World vector of Leishmania infantum[J]. Bmc Genomics, 2015, 16(1):1-15.