(资料图片仅供参考)

6月14日,《自然》期刊在线发表了西安交通大学、复旦大学、中国医学科学院等26家单位联合发布的中国人泛基因组联盟(CPC)一期研究进展——《基于36个族群的中国人泛基因组参考图谱》。

人类参考基因组长期缺失中国人样本

人类参考基因组是广泛用于人类遗传学和医学研究的遗传密码“导航图”,是解析人类起源与演化、揭示人类表型和疾病的物质基础。自上世纪末“人类基因组计划”启动后的20年里,人类参考基因组作为生命、医学等研究领域的基石,见证着人类在探索生命奥秘的漫漫征途中留下了坚实不悔的足迹。

人类参考基因组经历了几十次的更新迭代,但无论是人类参考基因组的初始计划或是最新第38版(GRCh38),各参考基因组版本皆以白种人为主体而构建,无法代表全人类,难以体现中国多族群的遗传多样性。即便是最新的旨在代表全人类遗传多样性的HPRC项目,在其收集的全球46个样本中仅包含3个中国人样本,无法代表14亿中国人的遗传多样性。

作为世界上首屈一指的人口大国,我国在人类遗传资源上具有绝对优势。西南部高原地区分布着众多藏缅、南亚语系族群,东西方人群在西北部丝绸之路沿线交融、苗瑶语族人群在云贵地区世代繁衍,蒙古、突厥人群曾游牧于北部风沙地,通古斯语族一路向北抵抗严寒,台-卡岱(侗台)族群的先辈亦曾穿梭于南方丛林河谷。悠久的人群历史、别样的地理气候环境,塑造了中华民族独特的遗传多样性,构成了人类泛基因组研究不可或缺的东方画卷。因此,构建能够代表中华民族遗传多样性的中国人群泛基因组图谱势在必行且迫在眉睫,这将极大提高捕获罕见或低频遗传变异的灵敏度和准确性,服务于中国人遗传多样性研究、复杂疾病分子机制研究和精准医学。

体现了中国人群特异的遗传图谱

为了构建高质量高精度的中国人群参考泛基因组,由西安交通大学联合复旦大学等单位成立了中国人群泛基因组联盟(Chinese Pangenome Consortium, CPC)。研究团队采集了代表中国36个族群的58个样本,采用最新的第三代高保真基因组测序技术对样本进行高深度测序,结合最新的单倍型基因组组装方法,获取了116个高质量单倍型基因组,以图基因组的方式构建了高质量中国人群参考泛基因组。

相比于最新版的人类参考基因组(GRCh38),中国人群参考泛基因组发现了约1.9亿个碱基的新序列,其中约500万个碱基的新序列存在于95%以上单倍型中,体现了中国人群特异的遗传图谱。相比于HPRC构建的人类参考泛基因组,中国人群参考泛基因组中新发现约580万个小变异和3.4万个结构变异,其中约1.7万个结构变异影响6426个蛋白编码基因,并且这些基因与人体免疫系统显著相关。通过研究这些中国人群泛基因组特异结构变异在基因组上的分布,发现了与807个蛋白编码基因相关的223个变异热点区域,并且这些变异东亚人群常见性状紧密相关,如尿石症,肾结石和甲状腺肿大等。

此外,CPC还检测出了较高比例的古人来源的新序列(每个个体新增9.5 Mb),为东亚现代人基因组中的古人基因渗入研究乃至整个古DNA领域提供新的线索。

推荐内容