AI语言模型“提速”药物发现 --科技日报数字报

　　科技日报北京6月12日电（记者张梦然）美国麻省理工学院和塔夫茨大学研究人员设计出一种基于大型语言模型（如ChatGPT）的人工智能算法，这种称为ConPLex的新模型可将目标蛋白与潜在的药物分子相匹配，而无需执行计算分子结构的密集型步骤。相关论文发表在最新一期《美国国家科学院院刊》上。

　　使用这种方法，研究人员可在一天内筛选超过1亿种化合物，比任何现有模型都要多得多。这项成果解决了对当前药物筛选的需求，其可扩展性还能够评估脱靶效应、药物再利用以及确定突变对药物结合的影响。

　　近年来，科学家在根据氨基酸序列预测蛋白质结构方面取得了巨大进步。然而，要预测大型潜在药物库如何与致癌蛋白相互作用，依然具有挑战性，因为计算蛋白质三维结构需要大量时间和计算能力。

　　麻省理工学院团队以他们2019年首次开发的蛋白质模型为基础，此次将模型应用于确定蛋白质序列将与特定药物分子的相互作用。他们用已知的蛋白质—药物相互作用对网络进行训练，使其能学习将蛋白质特定特征与药物结合能力联系起来，而无需计算任何分子的三维结构。

　　通过筛选包含约4700种候选药物分子的库，团队测试了他们的模型，并确定了这些药物与51种蛋白激酶结合的能力。

　　从热门结果中，研究人员选择了19组“药物—蛋白质对”进行实验测试，最终12对具有很强的结合亲和力，而几乎所有其他可能的药物—蛋白质对都没有亲和力。

　　研究人员表示，药物研发成本之所以如此高昂，部分原因是它的失败率很高。如果能事先预测这种结合不可能奏效，就能减少失败率，从而大大降低新药开发的成本。

【总编辑圈点】

　　在我们普通人还在用语言模型聊天和写作时，科研人员已经看到了它在药物筛选方面的变革性潜力。药物研发耗时漫长且相当昂贵，要做大量的“无用功”。人工智能已经被引入这一枯燥漫长的过程，帮助缩短分子配对的时间。文中介绍的新模型ConPLex可以分析大量文本，并找到最可能出现在一起的组合。这种基于语言模型研究的思路，超越了目前最先进的算法，可在一天内筛选超过1亿种化合物。论文已经对筛选结果进行了实验检测，结果也令人欣喜。