科技日报北京7月22日电 (记者张梦然)英国《自然》杂志22日发表了一项结构生物学重磅研究,世界知名人工智能团队深度思维(DeepMind)报告了“阿尔法折叠”(AlphaFold)对人类蛋白质组(人类基因组编码的所有蛋白质的集合)的准确结构预测。此次得到的数据集,涵盖了人类蛋白质组近60%氨基酸的结构位置预测,且预测结果具有可信度。
确定蛋白质的结构能为理解生物学过程提供宝贵信息,并有望指导药物研发。考虑到理解人类蛋白质组对健康和医药的重要性,研究人员付出了大量努力来确定这些蛋白质结构。
虽然开展了数十年的研究攻关,但通过传统实验方法确定的结构,只覆盖了人类蛋白质组17%的氨基酸——氨基酸是连接起来形成蛋白质的亚单位。利用传统实验方法解析结构需要克服诸多十分耗时的障碍,因此,扩大蛋白质组覆盖面仍是一项艰巨挑战。
此次,深度思维团队的研究人员利用前沿机器学习方法“阿尔法折叠”,确定了覆盖几乎整个人类蛋白质组(98.5%的所有人类蛋白)的蛋白质的结构。研究人员发现,“阿尔法折叠”能对人类蛋白质组58%的氨基酸的结构位置给出可信预测。其中,对35.7%的结构位置的预测达到了很高的置信度,是实验方法覆盖的结构数量的两倍。在蛋白水平上,“阿尔法折叠”对43.8%的蛋白的至少3/4的氨基酸序列给出了可信预测。
研究团队认为,大规模的准确结构预测将成为一种重要工具,让我们能从结构的角度解答新的科学问题,而“阿尔法折叠”的预测结果将帮助进一步阐明蛋白质的作用。
研究团队表示,“阿尔法折叠”的预测信息将通过欧洲生物信息研究所(EMBL-EBI)托管的公用数据库免费向公众开放。
就在本月16日,深度思维公布了“阿尔法折叠2”的问世,就计算机方法而言,“阿尔法折叠2”能以前所未有的准确度根据蛋白质的氨基酸序列预测其三维结构。
总编辑圈点
在过去50多年的时间里,科学家一直尝试根据蛋白质的氨基酸序列预测其折叠而成的三维结构。这种传统实验方法对人力和时间的要求非常高——截至目前,约有10万个蛋白质的结构已经用实验方法得到解析,但这在已经测序的数10亿计蛋白质中,仅仅占了很小一部分。现在,“阿尔法折叠”预测的大部分结构达到了空前的准确度,结果与实验方法不相上下,速度却可以成倍数增长。可以说,我们现在的预测算法,终于让蛋白质结构解析技术跟上了基因组革命的发展步伐。