PacBio单分子实时技术解析结核分枝杆菌复合群甲基化组

2017-01-17    编辑:诺禾致源

研究背景

结核病感染主要由结核分枝杆菌复合群(Mycobacterium tuberculosis complex, MTBC)引起,
MTBC成员菌株在基因组序列上相似性超过99%,但是不同的谱系在毒力和宿主(人、动物等)上有着较大的差异。
本文利用PacBio三代单分子实时测序技术,对12株MTBC菌的全基因甲基化组进行了全方位的解析。
通过深入挖掘,探知到了“单位点”甚至“单read”的甲基化情况。
借助甲基化图谱首次揭示了在细菌中也存在大量的“部分甲基化”及“未甲基化”位点,
说明细菌的甲基化也可能如真核甲基化一样具有复杂的调控机制。
文章为深入探究基因组表观遗传修饰的精准调控机制提供了新的工具和思路,也为结核病原菌的发病机理提供了新的视角。

材料与方法

样品来源:12株结核分枝杆菌(Mycobacterium bovis;M. bovis BCG;M. microti;M. africanum;M. tuberculosis H37Rv;H37Ra;和6 个M. tuberculosis临床分离株)

DNA提取试剂盒:TIANamp Bacteria Genomic DNA Kit (Tiangen Biotech Co. Ltd., Beijing, China)

测序平台:Pacific Biosciences RSII

测序策略:10KB SMRT bell文库,测序深度100X

整体研究思路:

研究结果

1.基因组信息

首先得到了基因组信息,12株菌的GC%含量在65%左右,基因组大小4.34~4.43Mb,预测的基因数目4000~5000,这些基因均匀的分布在基因组的正义链和反义链上(表1)。

表1 12个MTBC菌株整体基因组信息



3.甲基化基序种类

测序的结果表明,甲基化类型为m6A,另外还有大量不确定的修饰类型,通过实验证实,基本上都是假阳性。一共检测到3种甲基化基序,除了先前已经被证实的CTCCAG(T表示互补链上的A),还包括CACGCAG和GATN4RTAC,这12个MTBC菌株中有着不同的甲基化基序种类,而这很可能是各自对应的甲基化酶失活引起的(表2)。

表2 12个MTBC菌株基因组甲基化比较



5.未甲基化motif的形成机制

通过质粒构建,证实GATN4RTAC基序位点识别和甲基化的基因是HsdM,CACGCAG是MamB(图3)。

图3 12个MTBC菌株三种甲基化酶基因及其对应的甲基化序列基序


为了探究这些未甲基化motif的形成机制,作者统计了其中最为频繁的未甲基化位点,在GATN4RTAC和CTCCAG基序中,前10的未甲基化位点至少存在于两个菌株中,而且有三种在所有测试菌株中均存在(表4)。


表4 12个MTBC菌株中包含未甲基化位点前10的基因

2.SNP位点分析

对MTBC菌株基因组SNP位点分析,构建系统发育树,结果显示,主要分成了8大支系,发现在6个临床菌株中,两株属于L2(北京型),三株属于L4(欧美型),还有一株属于L3(东非印度型)(图1)。

图1 结核分枝杆菌复合群系统发育分析



4.启动子区域研究

三种基序在基因组上随机分布,和其他两种基序相比,GATN4RTAC更加偏好在基因间区(IGRs),大约占到了12~13%,而且在起始密码子上游70~80bp有富集,该区段是启动子所在区域,因此很可能参与了启动子活性的调节(图2)。

图2 12个MTBC菌株基因组信息和DNA甲基化组圆环图

GATN4RTAC和CTCCAG总是存在一些未甲基化的位点,这些位点大部分两条链都未甲基化,但也有一条链未甲基化的。在7个MTBC菌株中,高达23%的GATN4RTAC未甲基化位点位于基因间区,通过基因组比较,这些位点位于起始密码子上游50bp以内,而大多数启动子位于上游70~80bp。这些位点很可能总是处于未甲基化的状态,从而使相关基因能够正常转录(表3)。


表3 12个MTBC菌株未甲基化位点

研究结论

一共鉴定到了3种m6A甲基化基序及相对应的甲基转移酶基因——mamA、hsdM 和mamB,并且验证了hsdM 和mamB甲基化酶的基序和功
能。同时发现,这3种酶的活性在不同种系中存在差异,通过比较基因组学的研究,发现很可能是基因突变或缺失降低了甲基化酶活性。借助
于对单位点甲基化比例的计算,得到了MTBC的精准甲基化图谱,从而能够更加深入地研究甲基化酶。