目前,DeepMind 已经使用其蛋白质折叠人工智能 AlphaFold 为人类蛋白质组、酵母、果蝇、小鼠等生成结构。
早在 2020 年 12 月,DeepMind 就用 AlphaFold 解决了一个长达 50 年的重大挑战,AlphaFold 是预测蛋白质结构的人工智能工具。最近,这家总部位于伦敦的公司公布了该工具的全部细节,并发布了其源代码。
现在,该公司宣布,它已经使用人工智能来预测人体中几乎所有蛋白质的形状,以及在 20 种研究最广泛的生物体中发现的数十万种其他蛋白质的形状,包括酵母、果蝇和老鼠。
这一突破可以使来自世界各地的生物学家更好地了解疾病,并开发出新药。到目前为止,该”宝库”由 35 万个新预测的蛋白质结构组成。DeepMind 表示,它将在未来几个月内为科学界预测并释放超过 1 亿个结构——基本包含所有已知的蛋白质。
DeepMind 公司的联合创始人兼 CEO 德米斯·哈萨比斯(Demis Hassabis)说:“蛋白质折叠是我作为 CEO 20 多年来一直关注的问题。”这对我们来说是一个巨大的工程。我想说,这是迄今为止我们所做的最大的事情。在某种程度上,这是极其令人兴奋的,因为它可以在人工智能之外的世界上产生非常大的影响。”
蛋白质是由氨基酸构成的长带组成的,它们将自己扭曲成复杂的结。了解蛋白质结的形状可以揭示蛋白质的作用,这对于理解疾病的原理和开发新药至关重要,或者帮助解决污染和气候变化的生物。在实验室里确定一种蛋白质的形状需要几周或几个月的时间,而 AlphaFold 可以在一两天内预测原子尺度上最接近的形状。
这个新的数据库应该会使生物学家的生活更容易。AlphaFold 可能可以供研究人员使用,但并不是每个人都愿意自己运行该软件。“调用数据库比运行在自己的计算机上更加容易,” 华盛顿大学的蛋白质设计研究所的大卫·贝克(David Baker)说。他的实验室基于 AlphaFold 的方法建立了自己的工具来预测蛋白质结构,称为 RoseTTAFold。
在过去的几个月里,贝克的团队一直在与生物学家合作,他们之前一直在试图弄清楚他们正在研究的蛋白质的形状。他说:“有很多优秀的生物学研究真的被加速了。”一个包含数十万现成蛋白质形状的公共数据库将会成为一个更大的加速器。
伦敦帝国理工学院研究酵母基因组的合成生物学家汤姆·埃利斯说:“它看起来令人印象深刻。”他很兴奋地尝试这个数据库。但他警告说,大多数预测的形状尚未在实验室中得到验证。
Atomic precision 原子精度
在新版本的 AlphaFold 中,预测带有一个置信度分数,该工具使用它来标记它认为每个预测的形状与真实的形状有多接近。通过这项测量,DeepMind 发现,AlphaFold 预测了 36% 的人类蛋白质的形状,其准确性可以精确到单个原子的水平。哈萨比斯说,这对药物开发来说已经足够好了。
此前,经过几十年的工作,人体中只有 17% 的蛋白质的结构在实验室中被确定。如果 AlphaFold 的预测像 DeepMind 说的那样准确,那么该工具在短短几周内就将这个数字增加了一倍多。
即使是在原子水平上不完全准确的预测也仍然有用。对于人体中一半以上的蛋白质,AlphaFold 预测的形状应该足以让研究人员了解这种蛋白质的功能。AlphaFold 目前的其他预测要么是不正确的,要么是针对人体中特殊的占三分之一的蛋白质,这些蛋白质在与其它物质结合之前根本没有结构。“它们是松散的,”哈萨比斯说。
哥伦比亚大学的系统生物学家穆罕默德·阿尔库拉什(Mohammed AlQuraish)说:“AlphaFold 能达到目前的水平是令人印象深刻的,”他开发了自己的预测蛋白质结构的软件。他还指出,拥有生物体中大多数蛋白质的结构,将使研究这些蛋白质如何作为一个系统工作成为可能,而非孤立的对象。“这是我认为最令人兴奋的事情,”他说。
正在免费发布其工具和预测,不会透露未来是否计划从这些工具从中获取利润。然而,并不排除这种可能性。为了建立和运行这个数据库,DeepMind 正在与欧洲分子生物学实验室合作,这是一个国际研究机构,已经拥有了一个大型的蛋白质信息数据库。
目前,阿尔库拉什已经迫不及待地想看看研究人员会如何处理这些新数据。“这非常壮观,”他说,“我们任何一个人都没想到这一步到来得如此之快,这令人难以置信。”
凡注有"环球传媒网"或电头为"环球传媒网"的稿件,均为环球传媒网独家版权所有,未经许可不得转载或镜像;授权转载必须注明来源为"环球传媒网",并保留"环球传媒网"的电头。