中草药基因组汇编

2017-01-12    编辑:诺禾致源
甘草(The Plant Journal)

豆科植物甘草属,重要的药用植物,是一种补益中草药。药用部位是根及根茎,具有改善肝功能、抗炎症、治疗胃痛、腹痛等多种功效。同时,甘草也是医药、化妆品的重要原料。

利用二加三代组装,基因组大小为379Mb,Scaffold N50=109Kb,共预测到34445个基因。与其它豆科植物的基因组信息及全基因组进行分析比较,发现合成异黄酮物质相关基因(CYP93C、HI40MT、7-IOMT)群的一部分形成基因簇,研究小组进一步对生物合成相关的含有酶基因的基因家族深入分析,发现了其遗传结构和遗传表达规律。



大麻(Genome biology)

桑科、大麻属植物。目前大麻及其衍生物如大麻药是世界上消费最普遍的非法药物,一直作为一系列疾病如多发性硬化和慢性疼痛病症等的治疗药物而被广泛关注。此外,产纤维大麻也成为许多国家的重要农作物。

利用二代测序数据组装,基因组大小为820Mb,杂合率约为0.2%,共确定40224个蛋白编码基因,Scaffold N50=16.2kb。本研究发现花的基因表达模式和大麻素及萜类的合成是一致的,编码大麻素途径酶的基因,以及编码参与前体途径蛋白的基因都在花发育的三个阶段(花前期、花早期和发育中期)高度表达。对药用大麻与纤维大麻的大麻素途径基因比较发现,药用大麻的整个合成途径基因表达量高。AAE3基因发生扩增,推测其参与大麻素的生物合成。



铁皮石斛(Molecular Plant )

兰科植物,其茎部含有抗氧化和抗肿瘤活性化合物,并能够缓解胃部不适,促进体液分泌的传统药物。因其药用价值几乎被开发殆尽,在中国被列为珍惜濒危药用植物之一。

利利用二加三代测序组装,基因组大小Contig N50=25.1Kb,Scaffold N50=76.4Kb。重复序列为63.33%,杂合率达到0.48%。共确定35,567个蛋白编码基因,确定了1,462个铁皮石斛特有的基因家族,与植物发育光控制、抗病抗逆、木质部及纤维素合成有关。研究分析了铁皮石斛一些药用成分的生物合成信号通路,发现与多糖生成相关的蔗糖磷酸合成酶(SPS)和蔗糖合成酶(SuSy)基因发生了大规模复制,分别鉴定出10个SPS和15个SuSy基因。此外,生物碱也是铁皮石斛的一种重要生物成分,研究还进一步探究了生物碱的合成通路及相关蛋白。



蛹虫草(Genome Biology)

虫草属的模式种,又称冬虫夏草,世界性分布。由子座(草部分)与菌核(昆虫尸体)组成,其虫草酸具有药用价值,可以治疗病后虚弱、咳血等症,是一种能同时平衡、调节阴阳的中药。

利用二代测序组装,基因组大小为32.2Mb,Scaffold N50=4.6Mb,确定了9684个蛋白编码基因。本研究中对蛹虫草和绿僵菌的基因组进行比对分析。分析结果表明蛹虫草的出现比绿僵菌早约1.3亿年,各自独立进化且具有杀虫特性,表现出协同进化的特点。蛋白酶和几丁质酶等用于昆虫体壁降解的蛋白家族表现出明显的扩张现象。基因组分析表明,蛹虫草基因组大约有16%的编码基因参与真菌—昆虫的相互作用,不存在编码对于人类有害的已知真菌毒素。研究首次表明,蛹虫草为有性生殖类型。此外,与其他真菌不同,其子实体发育主要受MAPK信号途径调控,而非MAPK和PKA共同调控。



丹参(GigaScience、Molecular Plant)

唇形科植物,传统的中草药,全国大部分地区都有分布,生于向阳山坡草丛、林边等地,起初主要用于治疗心脑血管疾病,具有活血祛瘀、清心除烦、凉血消痈等功效。2015年,采用二加三代混合组装,基因组大小为641 Mb,Contig N50=82.8Kb,Scaffold N50=1.2Mb。预测出34,598个蛋白质编码基因以及1,644个丹参基因组中特异的基因。

来自于L-苯丙氨酸的迷迭香酸是丹参中重要的药用成分。本研究用拟南芥中类黄酮合成通路中相关基因作为参照,挖掘丹参中苯丙素合成关键基因,发现在丹参根中表达最高。2016年采用二加三代混合组装方法获得丹参基因组草图。基因组大小538 Mb,Contig N50 = 12.38 Kb,Scafflod N50 = 51.02 Kb。最终预测得到了30,478个蛋白质编码基因,系统进化树分析丹参与芝麻亲缘关系最近,两者分化与67百万年前。并对丹参进行了基因家族进化和功能分析。TPSs和CYPs基因簇通常与萜类化合物合成中的持续酶活有关。本研究进一步证实了这些基因簇与丹参酮生物合成的关系。系统进化分析表明SmCPS1和SmCPS2簇来源于CPS/CYP76AH的复制事件。结合转录组数据,分析了丹参酮合成相关基因各个组织部位的表达差异。本研究还比较了药用价值较高的开白色花的丹参基因组与开紫色花的丹参基因组间的遗传差异。



参考文献

[1] Draft genome assembly and annotation of Glycyrrhiza uralensis, a medicinal legume.The Plant Journal. 2016

[2] Genome sequence of the insect pathogenic fungus Cordyceps militaris, a valued traditional chinese medicine. Genome Biology.2011

[3] Genome sequencing of herb Tulsi (Ocimum tenuiflorum) unravels key genes behind its strong medicinal properties. Plant Biology. 2015

[4] The draft genome and transcriptome of Cannabis sativa. Genome biology. 2011

罗勒(Plant Biology)

唇形科植物,为药食两用芳香植物。罗勒植株有活血、解毒等功效。在东南亚国家广泛种植,能够提取精油,有多种功效。

二代测序组装,基因组大小为374.8Mb,Contig N50=2.6Kb,Caffold N50=27.1Kb,基因组注释确定36768个基因。在其他5种已测序品种发现89922个同源基因。并确定了16个在其他22个物种中无同源或同源关系的特有基因。通过比对罗勒和其他植物基因组,挖掘合成具有药用价值的次生代谢物质基因。在罗勒植物中有近30种次生代谢物质。在罗勒基因组中共确定458个与合成次生代谢物相关基因,并结合转录组数据挖掘出与重要次生代谢相关基因的表达模式。



灵芝(Nature Communications)

灵芝是多孔菌科真菌灵芝的子实体,是传统中国医药的标志,是世界最知名的药用大型真菌,具有抗癌、抗高血压、抗病毒和免疫调节活性等功效,灵芝能产生大量的生物活性化合物,其中超过400种已被确定,使灵芝拥有生物活性化合物的细胞“工厂”之称。

组装获得灵芝基因组大小为43.3Mb,Contig N50=649.7kb,Scaffold N50=1.4Mb。共确定16,113个蛋白编码基因,基因组序列结合转录组分析,对灵芝不同发育阶段基因的表达情况进行了探究;基因组比较分析三萜类生物合成相关基因,发现大量编码CYPs和LSS的相关基因及其共表达情况,并确定了大量含有CYP基因的基因簇,其中两个与LSS共表达。
灵芝拥有一个庞大而完整的木质素过氧化物酶系列,以及漆酶和纤维二糖脱氢酶,这些酶的存在说明灵芝会通过不同的方法分解木质素。



玛卡(BioRxiv)

十字花科植物,适宜在高海拔地区生长。是一种纯天然食物,营养成分丰富。玛卡富含高单位营养素,对人体有滋补强身的功能。主要含两类新的植物活性成分,玛卡酰胺和玛卡稀,这两种物质对平衡人体荷尔蒙分泌有显著作用,所以玛卡又被称为天然荷尔蒙发动机。

用二代组装获得基因组大小为743Mb,Contig N50=81Kb,Scaffold N50=2.4Mb。基因组注释获得51,339个蛋白编码基因和34,846个非蛋白编码基因,通过比较基因组学分析,玛卡中有9,713个基因家族扩张,主要包括参与非生物胁迫相应、激素信号传导和次生代谢物质合成相关基因。在6.7 Mya年前玛卡发生过全基因组复制事件,使得玛卡适应高海拔的极端环境。
全基因组复制事件使得参加叶片发育的基因RCO、KNOX和CUC增加,叶片边缘表现出锯齿状,表面积减少。参与抗寒和抗UV-B的基因增加。玛卡基因组中与春化作用相关基因丢失,使得玛卡不存在明显的春化现象。