瑞典皇家科学院10月9日宣布,David Baker、Demis Hassabis和John M. Jumper获得2024年诺贝尔化学奖。你别说今年这个诺奖,我在现实中用过,所以先给个好评。

如果说生理医学奖的microRNA是我自己前两年水了一篇论文有所接触,那么这个AI结构预测是我用它帮助过现实中的人。

01,蛋白结构预测帮了大忙

一个很熟悉的朋友怀孕了,做了个基因检测,结果出问题了,孩子身上出现了一个罕见变异,这个变异甚至不在常见的数据库里,但是根据预测,这个变异是负面的。

那么问题来了,这个孩子该不该要?所以朋友很担心,她也问了遗传医生,但是遗传医生给出的结论属于模棱两可的,所以就找到了我。当时我的压力也很大,所以就用尽全身的技能来做解读这个变异。

1,遗传家系分析。这是我做的第一步,就是用家系分析,因为人类对于遗传学乃至生命科学的认知非常浅显,所以家系分析反而是现实发生的相对可靠的证据,或者直白的说,如果家系里有这个变异且无症状,其实就是很扎实的证据。

结果家系分析显示,这个变异是来自于父本,但是父本并没有表现症状。而这个朋友的第一个女儿也是杂合体,同样没表现症状(性别不一致)。

按理说差不多了,不过这个时候还有一点担心,那就是,这个疾病发病年龄可能在青春期,所以目前还不完全根据父本以及第一个女儿来确定第二个孩子的状况。

2,DNA相关预测。这个就是做了一系列分析,包括变异可能的遗传影响,用各种数据来预测,但是基于DNA的预测毕竟还是有限,因为还是要落到发挥功能的蛋白质上。

3,蛋白质预测。于是,就要找蛋白质,但是,蛋白质是需要高级结构的,而这个传统是只能找结构生物学来做。那么,必须有人做过这个蛋白质才会看到结构,从而进一步分析结构。这时候发现,这个蛋白,并没有被测过结构,怎么办?

搁在过去,这就麻烦了,但是现在有AI蛋白结构预测以及相关数据库。于是我就去做这个,并且对照数据库里的AI 蛋白结构。

结果发现,这个点发生变异的位置,并不是该蛋白发挥作用的核心结构域位点,而是一个较为边缘的位置,而根据一系列计算,发现这个位置似乎也并不是特别重要。

把这些结论综合起来后,我把相应的结论给了朋友,最后朋友思考后决定按照概率还是选择生下了这个宝宝。到目前,宝宝一切正常。

当然,这也只能到这里了,因为这是目前生物学的极限了,往后谁也没法去保证。所以,我很感激蛋白质AI结构预测,因为世界蛋白千千万,如果一个个测过去,得猴年马月才能搞定,但是有了AI预测蛋白质,速度快多了,而且对现实有很大的帮助。

下面聊聊为什么要解决蛋白质结构的问题。

02,为什么要解决蛋白质结构的问题

蛋白质是生命的核心执行者,这是一个很重要的点。为什么呢?提到生物,大家很多最熟悉的是DNA,当然,如果深入一些,会熟悉叫做中心法则的东西。

DNA,你有我有大家都有,如果DNA发生了变化,那么就会导致差异,而你我每个人都携带着上千万个DNA变异,这也是每个人差别的缘故。但是,这个差别,只在DNA上是意义不大的。

因为,DNA这东西,是携带信息为主的,就比如,我们每个细胞基本上都有一套DNA(红细胞、生殖细胞略例外),所以我们提DNA的时候用各种组织都方便。

而DNA要想发挥作用,那首先就要经过转录,变成RNA。

RNA当然复杂,比如除了编码蛋白质的mRNA,还有一堆其他RNA,就是非编码RNA,当然,非编码RNA也是有很多作用,比如今年拿到诺奖的microRNA就是属于这一系列,此外还有lncRNA(长链非编码RNA)等也是热点,这些RNA对于基因有调节作用。

但是,RNA的意义,也就到这里了,由于RNA易降解且结构相对简单,所以,它还是撑不起生命执行者这个步骤。

因此必须到了另外一个更加实体的结构,那就是蛋白质。所以,蛋白质是生命的核心承担者,蛋白质是构成细胞的基本物质,是结构物质,是催化的酶,是运输的载体,是免疫的抗体,是调节的激素,可以说,蛋白质是生命的物质基础,是生命活动的主要承担者。

但是,蛋白质和DNA不一样,尽管DNA、RNA也有空间结构,但是远不像蛋白质那样,必须要复杂的空间结构才能完成功能。

所以,必须要有空间结构,蛋白质才能发挥作用,举个例子,酶

必须有那个结构才能发挥作用,如果这个结构发生了变化,那么结合就会受影响。所以,要想研究蛋白质, 必须解析蛋白质结构。

03,如何解析蛋白质结构?

如何解析蛋白质结构?传统办法就是用结构解析,这东西,耗时耗力,难度很大。举个例子,新闻报道的一个做结构生物学的女博士,连续4年几乎每天工作17小时!

做啥呢?就是努力让蛋白以天然状态结晶,这也是被认为是天然的蛋白质结构。

可以想象,做这个东西,工作量之大难以想象。正因为如此,做出来这东西,也往往能发顶刊,因为很基础嘛。


04,AI蛋白质结构预测


理论上,蛋白质是一个个氨基酸构成的,这些氨基酸本身有各种理化性质,比如两性解离、等电点等。但当很多氨基酸出现的时候,那么这些性质叠加起来就不容易去分析了。

不过我们还是应该相信,哪怕是复杂的生命现象,背后也是有基本的理化性质,这也是为什么很多诺奖物理和化学竟然和生物有关。于是,我们需要努力的找规律,而这个规律的依据之一就是已有的蛋白质结构,这些分析过结构的蛋白质是序列明确、结构清晰的,对他们进行足够的分析,那么就可以寻找到一些规律,进而因此来预测出蛋白质的结构。

比如我电脑里现在还存着以前学习的文件,就是关于蛋白质结构分析预测的。

当然,这些预测还是相对原始的。而有了机器学习,尤其是AI 之后,这个学习速度要快多了,计算机的强大远超过我们的认知,能够发现一些我们不曾注意到的细节,而这些细节也会进一步加强对蛋白质的预测,使得蛋白质的结构预测越来越精准。

举个例子,今年nature上的蛋白质预测文章,

可以将蛋白质的预测性能提升到最大值的97%。这个预测效率已经非常高了。

事实上很多时候,我们不一定需要100%精准的蛋白质结构,只需要相对精准的知道就可以了,那么接下来后续开发就容易多了。所以,AI帮了大忙。

05,蛋白质结构预测大有可为

其实蛋白质结构意义很大,比如研究药物就是很典型的,尤其是生物药物,精准的结构可以更好的寻找到有效药物,比传统化学小分子选择更多,且效果更好。而且,在其他方面,比如疫苗预测上也很有意义。比如nature十大人物曹云龙,被称为新冠预测者。

他的技术之一就是依据蛋白质结构来。比如,他发现新冠蛋白的某个位点可以降低病毒的免疫原性,帮助病毒逃避免疫反应,那么就可以猜测,未来的新出现毒株有可能从这个点上被筛选出来,于是我们就可以提前针对这个点做疫苗,到时候出现了就可以提前免疫。

类似的有很多,甚至我们目前面临的很多难解的疾病,未来都可能从蛋白质结构的角度来寻找解决办法,而传统蛋白质结构研究速度是跟不上的,AI 可以。

所以,AI预测结构,还真的大有可为。

来源: 李雷