该研究为当前的人类参考基因组(GRCh38)增加了1.19亿个碱基对(指在DNA双螺旋结构中的两个互补配对的碱基)和1115个基因重复,并由此得到了两个新发现。未来,该计划旨在观察和描绘350名个体的遗传多样性。
泛基因组管状图谱:人类泛基因组草图增加了1.19亿个碱基对(指在DNA双螺旋结构中的两个互补配对的碱基)和1115个基因重复。
(资料图片仅供参考)
当地时间5月10日,人类泛基因组参考联盟(Human Pangenome Reference Consortium)发表了首个人类泛基因组草图。相关的四篇论文均已发布,其中三篇发布在《自然》(Nature)杂志,一篇发布在《自然-生物技术》(Nature Biotechnology)杂志。
该草图旨在尽可能多地描绘出最终代表整个物种的DNA(脱氧核糖核酸)序列。它从47个祖先不同的个体中开发而来,相比于此前的人类参考基因组版本(GRCh38,是一个目前被广泛使用的,用于描述人类基因组序列的标准),人类泛基因组草图增加了1.19亿个碱基对(指在DNA双螺旋结构中的两个互补配对的碱基)和1115个基因重复。相比于GRCh38,该草图能检测到结构变异基因的数量增加了104%,为更完整地描绘人类基因组的遗传多样性提供了更多支持。
覆盖全球范围的泛基因组。
该项研究由美国华盛顿大学医学院( University of Washington School of Medicine)、美国加利福尼亚大学(University of California)等主导。研究称,GRCh38是目前已知的人类基因组序列的一个标准版本,它由一小部分人类基因组测序数据组成,其中包含许多已知的人类基因组变异和SNP(单核苷酸多态性)信息。GRCh38是人类基因组研究的重要工具,可以用来识别、定位和注释基因,以及进行遗传变异分析和比较基因组学研究。“但是,由于人类基因组是高度复杂的,存在很大的个体差异和变异形态,因此仍需要更深入的研究和探索来完善我们对其的理解。”
发表于《自然-生物技术》的文章《A draft human pangenome reference》表示,自20年前首次发布人类参考基因组以来,它一直是人类基因组学的支柱。但在当前的GRCh38版本中,有210 Mb(兆碱基)的DNA序列段没有被完整地测序,或无法确定其序列,其中151 Mb的区域完全未知,而59 Mb的区域是通过计算机模拟得到的预测序列。这种情况会造成相关研究的数据偏差,也意味着在人类基因图谱中,依然有很多区域是我们尚未可知。“因此,我们需要不断完善它。”
发表在《自然》的三篇文章提出了使用人类泛基因组草图得到的新发现。在第一篇文章《Increased mutation and gene conversion within human segmental duplications》中,Evan Eichler和同事开发了一个单核苷酸变异(SNV)图谱,其中包含了数百万先前未被描绘的SNV,同时,该图谱描述了一些基因组区域的变异性质,这些区域拥有片段重复序列,并在基因组的一个或多个位点上重复出现,共享着高度相同的DNA序列。这种重复序列的存在可能导致基因组变异,从而对个体的表型特征和患病风险产生影响。
首个人类泛基因组草图发表。
在第二篇《Recombination between heterologous human acrocentric chromosomes》文章中,Erik Garrison和同事利用人类泛基因组草图,观察到异源着丝粒染色体短臂(q-arm translocation,染色体的一个部分,通常位于染色体的末端)之间的重组模式,并观察到了某种DNA交换机制。这表明,在染色体之间,一种过去曾被推测但未被证实的DNA交换方式的确存在。
在第三篇《Pangenome graph construction from genome alignments with Minigraph-Cactus》中,研究人员利用人类泛基因组草图提高了Pangenome参考基因组的准确性。Glenn Hickey等人表示,Pangenome是一种新兴的基因组分析模式,这种模式不仅能分析个体基因组的变异,还能分析物种内所有个体之间共享的基因组变异,从而为更全面、准确地描述一个物种基因组提供了框架。在此次研究中,科学家们展示了“Minigraph-Cactus pangenome pipeline”的流程,该方法可以直接从全基因组比对中创建Pangenome,同时它还可以处理比较人类和果蝇之间的跨物种基因组数据。这为将来更好地理解物种间和个体间的基因组变异提供了更全面的信息。
当然,这些成果还只是人类泛基因组研究发展中的一个过渡阶段,该计划旨在观察和描绘350名个体的遗传多样性。研究人员Arya Massarat 强调了目前成果的重要性,但也表示,还需要持续改进以克服现有不足,比如,更多样化的取样。“这将帮助我们理解促成生理和临床特征的遗传变异,并为全球健康事业做出贡献。”