你知道吗?我们人体中有十几万种蛋白质,而所有的蛋白质都仅由20种氨基酸构成。那这些氨基酸是怎么构成一个个复杂的蛋白质的呢?科学家们又是怎么去探索不同蛋白质的功能的?听说最近科学家把最先进的人工智能技术应用在蛋白预测上,这到底是怎么一回事?
今天我们来聊聊,与我们人体所有功能息息相关的蛋白质,以及蛋白质结构的预测之路。
蛋白质是结构和功能都非常多样化的分子,而它的功能之所以能那么多种多样,是由于氨基酸在分子中的排列和组合不同。氨基酸呢,是蛋白质中最小的分子单位,两个氨基酸手牵手可以脱水缩合成一个二肽,以此类推多个氨基酸就能缩合成一个肽链了,按照一定顺序缩合成的肽链就叫蛋白质的一级结构。
那么问题来了,一条肽链上不同的氨基酸是怎么排列的呢?这就取决于基因啦!基因是DNA中有功能的片段,它们通过转录、翻译和表达,产生出有功能的蛋白质,从而控制细胞的生命活动,进而控制整个生命体。
那这些复杂的蛋白质是如何形成的?当不同的氨基酸依据基因的指示排列成肽链以后,就会发生卷曲或折叠,形成二级结构,这时候氨基酸的排列要么就像一个螺旋的曲面,或者会形成一个折叠片。
当二级结构再次发生多样化的折叠,形成球状或者纤维状的三维立体结构时,就形成了三级结构,这种特定的折叠方式使得不同的肽链具有不同的形状,来执行不同的功能。
你以为这就结束了吗?其实如果一个蛋白质的肽链不止一条,那么多条肽链就还会进一步卷曲折叠形成四级结构。
因此啊,蛋白质的折叠方式——也就是它的结构,决定了它特定的功能,也决定了我们生物体的功能,所以预测未知的蛋白质结构非常重要,能帮助我们解锁生命体功能的未解之谜。
这也就是为什么科学家一直在不断探索蛋白质的结构的原因了。在过去的几十年时间里,我们先从X-射线晶体衍射图谱中看到了DNA的双螺旋结构,在之后的40年间,科学家们依靠这种方法解析出了绝大部分的蛋白质结构。
然而,有些蛋白的结晶是很困难的,为此20世纪70年代,英国剑桥的科学家们开发出了冷冻电镜解析蛋白质结构的方法,从此,我们揭开了一些大分子与难以结晶的膜蛋白结构的神秘面纱,一些基础的受体蛋白与转录复合物等这些生命活动中最基础的分子结构被解析了出来。这个领域也产生了好几个诺贝尔奖,重要性就可想而知啦。
之后呢,伴随着互联网技术的蓬勃发展,计算机算法的能力突飞猛进,前两年大红大紫的deepmind公司,在人机大战中一战成名,如今又转战到另一个更为复杂的领域——预测生命大分子结构,deepmind开发出了AlphaFold,能直接实现序列到结构的神奇预测,甚至是极具挑战性的蛋白质相互作用的预测,也可以用AlphaFold和其他算法相结合来巧妙地解决了。
除了Deepmind,美国人也不甘示弱,华盛顿大学西雅图分校的大卫·贝克(David·Baker)团队利用RoseTTAFold[rəuˈzetə] 软件打造了一个强有力的蛋白质结构解析工具,能够在基因序列不明确的情况下补全蛋白质结构缺失的部分。
对于这一当红热门科技赛道,咱们国内自然也不甘示弱,取得了一定的可喜进展,但只是在DeepMind的开源数据上进行二次开发,没有真正的原创技术,实现从0到1的突破仍需要一段时间。
相信在未来,更先进、更创新的技术与方法也一定会让蛋白质预测的技术更加强大。
本文为科普中国·星空计划扶持作品
团队名称:深究科学
审核:陶宁
出品:中国科协科普部
监制:中国科学技术出版社有限公司、北京中科星河文化传媒有限公司
来源: 星空计划
内容资源由项目单位提供