你知道么,人类的第一份基因组序列草图发布至今已经20年了,在20年前发表的人类基因组序列中,大部分数据来自于一名白人志愿者,以及其他至少3个人的基因组混合而成,其中这名白人占据了70%以上的数据。

至于为什么这样,大概是因为当时测序一个人的基因组实在太贵,按照最后的统计,六国科学家用了总计42亿美元,才完成了第一个人类基因组草图。当时的科学家们或许是希望通过一个基因组计划获得尽可能多的人类基因信息,所以将不同人的DNA进行了混合;同时受制于技术,当时制作物理图等技术需要消耗大量的DNA,如果都是来自一个人,恐怕得抽很多血了。虽然是来自于至少4个人,但是这份基因组图是以“一个人”的形式出现的。

在过去20年中,有数以万计的关于人类基因的研究基于人类基因组计划完成的基因组序列。但是,这个参考基因组还是有很多问题。比如,当时基因组技术落后,我们看到的基因组并不是每条染色体完整的,而是有很多的“洞”,特别是在重复序列多的部分,比如端粒和着丝粒部分。2003年发表时,其实基因组的完成度只有92%,剩余部分科学家们又用了20年才完成;第二,不同人类个体的基因组虽然平均来说99.6%以上的序列是相同的,但是差别的那0.4%却造成了人类的多种多样,比如我们头发的颜色、身高、皮肤的颜色等等都不相同,就是那0.4%决定的。而这些特征,在人类基因组计划完成的序列图由于只代表“一个人”的基因,是无法完整描述这些遗传多样性信息的。

过去的20年中,在技术的进步和科学家们的不断努力之下,2022年科学家们发表了从端粒到端粒的人类基因组计划完成图,填补了人类基因组计划留下的几乎所有的“洞”。我们真正看到了完整的“一个”人类基因组图谱。完成了前面所述的人类基因组有很多“洞”的遗憾。而在是2023年5月初发表在《自然》和《自然·生物技术》杂志的四篇文章,更是将人类基因组推进到了“泛基因组”时代,也就是每个人的基因特征的时代。今天,我们就讲讲最新的这一系列进展。

首先,什么是泛基因组?泛基因组(Pan-genome)指一个物种内所有基因组信息的总和,它比单一参考基因组涵盖了更多的遗传多样性。最完整的泛基因组,就是这个物种所有个体的基因总和。

这次发表在《自然》《自然·生物技术》等期刊上的几篇文章,分别包括:发表于《自然-生物技术》的“人类泛基因组参考序列草图”;《自然》杂志的“人类片段化扩增中的突变和基因转化增加”、“人类异源染色体近端着丝粒之间的重组”、“使用Minigraph-Cactus比对工具来构建人类泛基因组图”。

我们总结一下这四篇研究的研究成果:首先,这次的泛基因组草图,是由47个不同来源的独立的个体的独立的完整的个人基因组数据分析得到的,相比当前被广泛使用的人类基因组参考序列GRCh38版本,草图增加了1.19亿个碱基对(指在DNA双螺旋结构中的两个互补配对的碱基)和1115个基因重复。

配图来自图虫网

相比于GRCh38,该草图能检测到结构变异基因的数量增加了104%。弥补了GRCh38中 210 Mb(兆碱基)的DNA序列片段,其中151 Mb的区域之前完全未知,59 Mb的区域是通过之前计算机模拟得到的预测序列。之前这种缺失的情况会造成相关研究的数据偏差,也意味着在人类基因图谱中,依然有很多区域是我们未知的。还需要继续完善。

第二,科学家们开发了一个单核苷酸变异(SNV)图谱,其中包含了数百万先前未被描绘的SNV,同时新的泛基因组图谱描述了一些基因组区域的变异性质,这些区域拥有片段重复序列,并在基因组的一个或多个位点上重复出现,共享着高度相同的DNA序列。这种重复序列的存在可能导致基因组变异,从而对个体的表型特征和患病风险产生影响。

第三,科学家们利用人类泛基因组草图,观察到异源着丝粒染色体短臂之间的重组模式,并观察到了某种DNA交换机制。这表明,在染色体之间,存在一种过去曾被推测存在但未被证实的DNA交换方式的确存在。

第四,研究人员利用人类泛基因组草图提高了泛基因组参考基因组的准确性。在此次研究中,科学家们展示了“Minigraph-Cactus 泛基因组分析”的流程,该方法可以直接从全基因组比对中创建泛基因组,同时它还可以处理比较人类和果蝇之间的跨物种基因组数据。这为将来更好地理解物种间和个体间的基因组变异提供了更全面的信息。

当然,这次取得的研究成果还只是人类泛基因组研究发展中的一个过渡阶段,整个计划旨在观察和描绘350名个体的遗传多样性。现在完成的,只是其中一小部分。研究人员计划到2024年年中完成这350人的基因组测序工作。

最后,从人类基因组计划,到现在泛基因组计划,我们都看到了中国人的贡献,而且贡献的比例从华大基因代表中国参与人类基因组计划1%开始,在逐步的提高,这次我们看到在四篇文章中,有两篇的通讯作者是来自中国的李恒博士,也是基因组研究领域的大神,还有多个中国人的名字位列作者名单中。

我们也希望在未来,人类基因组研究领域,有更多中国的声音,有更多来自中国的贡献。

本文为科普中国·星空计划扶持作品

作者:田埂

审核:陶宁(中科院生物物理研究所 副研究员)

出品:中国科协科普部

监制:中国科学技术出版社有限公司、北京中科星河文化传媒有限公司

来源: 星空计划

内容资源由项目单位提供