陆地棉全基因组重测序--解析驯化过程中的遗传机制

2017-03-22    编辑:诺禾致源

华中农业大学张献龙教授领导的棉花团队,对352份棉花种质资源进行全基因组重测序,
并通过GWAS、群体进化以及Hi-C分析,研究棉花驯化的遗传机制,发现了陆地棉驯化过程中的不对称亚基因组选择和顺式调控分歧。
相关研究成果《Asymmetric subgenome selection and cis -regulatory divergence during cotton domestication》于
3月6日在线发表于Nature Genetics(IF:31.616)。

研究背景

棉花是世界上重要的经济作物之一,为纺织品提供天然和再生纤维,
同时也是榨油和蛋白的来源。陆地棉至今已有5000年的栽培和驯化历史,在驯化过程中,
棉花的农艺性状得到了很大的改良,然而,目前对这些性状改变的遗传基础知之甚少。

材料与测序

1.材料选取:收集来自世界各地的352份陆地棉种质资源,其中31份野生种,321份栽培种
(其中野生种数据来源于公共数据库NCBI SRA)。
2.测序策略:采用Illumina HiSeq 4000 进行PE150测序,平均测序深度为6.9X。

研究方法与结果

1.全基因组变异图谱构建

本研究对352份陆地棉种质资源进行全基因组重测序,共得到6.1Tb的数据,与参考基因组TM-1比对后,得到7,497,568个SNP,351,013个indel,93,786个SV。通过一代测序验证,SNP的准确度达到了98.2%。

2.群体分层分析

本研究通过系统进化树分析和主成分分析(PCA),将352份棉花种质资源分为三个亚群,分别为野生群、ABI群及中国品种群(图1)。

图1 群体分层分析

3.遗传多样性分析

本研究利用π值对各亚群的遗传多样性进行分析发现,棉花的遗传多样性从野生群到ABI群再到中国品种群呈依次下降的趋势(图2)。研究表明,在驯化过程中,棉花的两个亚基因组的遗传多样性均降低,并且D亚基因组的遗传多样性降低的更多。

图2 π分析及FST分析

4.连锁不平衡分析

本研究对各个亚群进行连锁不平衡分析,当r2 值降到最大值的一半时,所对应的染色体物理距离即为该群体的LD值。其中野生群体的LD值为84kb,ABI群体的LD值为162kb,中国品种群体的LD值为296kb(图3)。此外,对于每个亚群,A亚基因组LD值要高于D亚基因组。

图3 连锁不平衡分析

5.选择消除分析

将ABI群和中国品种群分别与野生群进行XP-CLR及πwc 分析(图4),共鉴定出93个受选择区段,共178Mb,包含1,777个基因。其中在A亚基因组上受选择的区段为74Mb,包含549个基因;在D亚基因组上的受选择区段为104Mb,包含1,228个基因。研究表明,D亚基因组较A亚基因组受到了更强烈的选择。此外,研究发现,这些受选择区域与之前研究过的一些QTL热点重叠,其中大部分与纤维品质相关性状相关。

图4 选择消除分析

6.全基因组关联分析

本研究利用267份棉花种质资源的基因型数据及两年的表型数据进行全基因组关联分析(GWAS),共找到了19个显著关联的位点与纤维品质相关性状相关,其中8个在A亚基因组上,11个在D亚基因组上。在这些候选位点中,有三个GWAS显著关联信号位于群体受选择区段(图5)。 随后,该研究进一步从陆地棉A亚基因组中鉴定出一些驯化过程中受选择的基因,与纤维长度相关;在D亚基因组上鉴定出一些与逆境响应相关的基因,与纤维的伸长相关。此外,本研究在D亚基因组上找到了一些受选择的基因与白色纤维的发育有关。

图5 GWAS+选择消除分析

7.Hi-C分析

随后,本研究巧妙地将DNA酶切测序及Hi-C技术结合起来,鉴定了大量启动子上的顺式调控元件和远距离作用的增强元件(图6)。研究表明,这些转录调控元件受到了强烈的驯化选择,与基因的差异表达相关。本研究是首次在植物中对非编码区的调控变异进行分析,为在其他物种中挖掘功能变异提供了重要依据。

图6 TAD互作分析

研究结论

本研究利用352份棉花野生及驯化种质资源构建了陆地棉全基因组变异图谱,
找到了93个受驯化选择的区段,其中A亚基因组的受选择区段为74Mb,D亚基因组的受选择区段为104Mb。
并通过GWAS分析找到了19个候选位点与纤维品质相关性状相关。
本研究证实了棉花驯化过程中的亚基因组存在不对称的选择,并且定向选择长纤维性状。
此外,本研究通过DNA酶切测序及3D基因组结构的全面分析,证实了驯化对顺式调控分歧的影响。

阅读原文>>