全长转录组测序简介及应用

2017-03-03    编辑:诺禾致源
研究背景

全长转录组测序:基于Pacbio RS(单分子实时测序)平台,由于其超长读长可获得mRNA全长序列及完整结构信息。
全长转录组功能:首先可克服无参考基因组物种转录本拼接较短、信息不完整的难题;其次还可实现有参考基因组物种研究新基因及由于可变剪切等结构变化产生的不同isoform和更精准的表达定量分析。

实验流程

首先需要富集出mRNA;其次因为测序的模板为DNA,要把mRNA全长反转为cDNA;DNA电泳后进行分段建库,之后与DNA建库流程相同。


图1 全长转录组实验流程

图2 基因组文库构建流程

样本要求

1. total RNA总量≥10μg。
2. RIN≥8;软体动物基线越平稳越好。

文库构建及数据量

1. 分段构建文库(模板片段掉到零模波导孔中对长度有偏好性,片段均一性越好)。
2. 数据量,一般物种建议1-2K(3个SMRT Cell);2-3K(3个SMRT Cell);3-6K(2个 SMRT Cell),总数据量6G(数据量可以根据样本电泳情况调整,多倍体建议数据量加大保证数据准确性,由于3'UTR+5'UTR长度>1K,所以不构建<1K文库)。

信息分析内容

有参考基因组物种


1. 数据质控
2. 数据组装、去冗余
3. 结合二代转录组数据校正
4. 与参考基因组比对
5. 可变剪切分析(AS)、新基因预测
6. 融合基因分析、癌基因注释(限肿瘤样本)
7. 以全长转录本为参考,结合二代数据定量分析
8. 差异分析
9. 富集分析

无参考基因组物种


1. 数据质控
2. 数据组装、去冗余
3. 结合二代转录组数据校正
4. 七大数据库对全长转录本注释
5. 以全长转录本为参考,结合二代数据定量分析
6. 差异分析
7. 富集分析

案例解析

1. 二代联合三代测序深入解析丹参根全长转录本和结构信息[1]

丹参为重要的药用植物,作者利用二代测序结合三代全长转录本测序,获得了丹参根特别是丹参皮中全部转录本信息;发现约有40%的基因发生可变剪切,且部分参与与类异戊二烯和萜类化合物代谢过程。

图3 可变剪切事件分析

图4 不同测序平台转录组本长度比较

2. 二代联合三代测序进行甜菜新基因预测[2]

利用全长转录本测序,发现98%测序转录本包含完整的开放阅读框(ORF),可协助二代转录组测序降低背景噪音提高新基因预测灵敏度和精确度,这篇文献为新测基因组非模式生物物种基因注释提供了思路。

图5 真核生物基因预测分析流程

3. 二代联合三代测序分析人胚胎干细胞新基因和新转录本[3]

通过三代结合二代测序技术,全长转录本检测到胚胎干细胞中有8084个已注释的基因和5459个通过统计学模型预测的新的转录本,其中1/3的新转录本是之前没有发现的,包括273个新的基因位点。进一步研究发现新发现的基因集只在胚胎干细胞这种多能性细胞中表达,在婴儿和成人的组织中是不表达的,这个基因集表达水平降低可扰乱多功能基因网络。本研究证明,基因鉴定即使是研究很成熟的人类细胞和组织也远远没有完成。

图6 新基因鉴定

参考文献

[1] Xu Z, Peters RJ, Weirather J, et al. Full‐ length transcriptome sequences and splice variants obtained by a combination of sequencing platforms applied to different root tissues of Salvia miltiorrhiza and tanshinone biosynthesis. Plant J. 2015, 82(6): 951-61.

[2] Minoche AE, Dohm JC, Schneider J, et al. Exploiting single-molecule transcript sequencing for eukaryotic geneprediction. Genome Biolo. 2015, 16: 184.

[3] Au KF, Sebastiano V, Afshar PT, et al. Characterization of the human ESC transcriptome byhybrid sequencing. Proc Natl Acad Sci U S A. 2013,110(50): E4821-30.