生成式AI大模型：有望实现生命从头设计 --科普时报--数字报

12月8日，谷歌发布最强AI 3个模型。其中，Gemini Nano 是一个更轻便的版本，可以在安卓设备上原生离线运行。谷歌首席执行官将其描述为“人工智能模型的一次巨大飞跃”。而最近发表在国际顶级期刊《自然》上的论文《用可编程生成模型理解蛋白质空间》也引起科技界轰动。这篇文章用生成式AI大模型生成了自然界中从来没有存在过的蛋白质分子，并经实验验证获得了蛋白质的三维分子结构。

为什么这项研究会引起科技界的轰动？首先，之前的研究只能设计跟天然蛋白近似的结构。也就是说，之前蛋白质的设计仅局限于自然界中已存在的蛋白质序列。事实上，蛋白质可能存在的序列是已发现的蛋白质分子的亿万倍。如果想实现蛋白质某一个功能，但是天然蛋白不存在近似结构，那就无法精确设计。比如，想设计一个雪花型蛋白质，可没有相似的天然蛋白结构，无从下手。现在采用生成式AI大模型则突破了这一限制，可以设计任何结构的蛋白质。采用以前的方法设计的蛋白质要么无法折叠，要么能折叠但结构错误，导致没有生物功能，而采用AI大模型预测的蛋白质均能折叠并都有功能，证明了新设计方法的准确和强大。

这次研究证明了可以利用AI大模型有效探索巨大的构象空间，理论上蛋白质构象空间的构象个数比宇宙中所有的原子个数都要多。在这样的空间寻找某种构象曾被认为是不可能的，然而现在AI大模型却可以得到指定的构象，可以类似在一片大海里寻找到某个特殊的水分子。

更为重要的是，我们可以利用这种生成式AI模型“编辑”蛋白质结构和功能，实现高效的蛋白质分子设计。当具有能力可以设计蛋白质分子及分子间相互作用，我们也同时具有能力，可以从头设计生命体内的物质结构与信号传递，有望实现生命从头设计。

可以预期AI大模型辅助的蛋白质的可编程从头设计，我们将以前所未有的方式操控生物分子，引发一场生命科学领域的创新革命，直接促进生命科学领域研究及人类的医疗健康产业的发展，有望对癌症、艾滋病、衰老、老年痴呆症等重大医疗难题提供治疗方法。我们可以利用蛋白质制造纳米级别的新工具，并且与我们身体完全相容，使其对人体副作用最小化。这些新工具可以是新药物、新疫苗、新的疾病疗法，甚至是新材料。它们完全来源于与人体化学构成相同的氨基酸作为材料。

如果想设计一种能够在体内识别癌细胞的蛋白质，这种蛋白质需要具备特异性识别癌细胞靶点的功能。我们可以通过确定癌细胞靶点的结构和结合面，并使用生成式AI模型设计出这样的蛋白质得到氨基酸序列，可以合成出编码这个新序列的基因，并且在免疫细胞中表达。这样免疫细胞就具有了识别癌细胞的能力，可以特异性地消灭癌细胞，并且不会损伤正常细胞。我们也可以根据其他疾病的致病机制，设计相应的蛋白质分子，阻断甚至治愈这些疾病。当具有了蛋白质的从头设计能力之后，我们就可以做更多之前无法想象的事情。

但是，应该清醒地认识到，目前机器学习与深度学习依然存在一些问题。尽管神经网络可以通过大量的数据和观测结果学习到隐含的规律与法则，并利用这些规律与法则生成新数据，但相比于从第一性原理计算得到的结果还充满不确定性，并且无法估计生成结果的准确性。因此，虽然生成式AI大模型逐渐展现出从语言、图像到设计分子的巨大潜力，但我们依然需要保持谨慎乐观的态度。在最终实现利用生成式AI大模型从头设计生命的理想之前，依然还有很漫长的路需要去探索、试验和完善。

（第一作者系吉林省科普创作协会会员、吉林省科学技术工作者服务中心助理研究员，第二作者系吉林省科普创作协会会员、中国科学院长春应用化学研究所博士）