“图灵测试”可判断类人机器人逼真程度 --科普时报--数字报

摇曳烛光

艾伦·图灵（Alan Turing）头像最近被宣布印在新版50英镑纸币上，因为他在二战期间为破解密码作出了贡献，并奠定了计算机科学的基础。然而，图灵的工作仍然挑战和激励着许多人，尤其是那些在机器人和人工智能领域工作的人。

1950年，图灵第一次提出“机器会思考吗？”的问题，同时提出了一项测试方法，至今研究人员仍将其作为一种判断计算机是否可以被视为与人类一样具有真正的智能的技术。但是，在一个自动机器人刚刚起步的时代，图灵测试只被设计用来评估人工大脑，而不是一个完整的机器人。现在我们有了越来越逼真的机器人，需要一个21世纪版本的测试。

科学家们设计了一个“多模态图灵测试”来判断机器的外观、运动、声音以及我们所称的嵌入式人工智能（EAI）。这是一个衡量人工智能如何与机器人身体整合，以表达一个人的个性的技术。这项技术使得我们可以系统地将人形机器人与活体机器人进行比较。与此同时引发出这样一个问题：“我们能制造出在感知上与人类无法区分的机器人吗？”图灵认为，如果一个电脑程序可以欺骗超过30%的人，让他们相信它在现实世界中是有知觉的，那么它实际上就和人类的大脑没有区别，也就是说它可以思考。

2014年，一台电脑通过了这项测试。这意味着创造真正的人工智能是完全可能的。图灵测试给了我们一个判断研究进展的基准。许多学者认为，创造一个与真人难以区分的类人机器人是机器人技术的最终目标。然而，目前还没有标准的方法来评估机器人有多逼真，所以不可能对这一发展进行基准测试。就像图灵一样，我们并不是说机器人可以复制人类的所有功能后变成有机生物。但是，如果一个机器人的出现、行为和功能与现实世界中的人类没有什么区别，那么它实际上可以被认为与人类一样。对于栩栩如生的机器人制造者来说，最大的挑战之一就是克服所谓的“恐怖谷”。“恐怖谷”指的是一个人工智能的发展阶段，在这个阶段，机器人在外表上更接近人类，但实际上对人类更反感，因为这些机器人的判断并不完全正确。问题是，传统的评估问题的方法不够细致入微，无法准确地确定为什么机器人会让人感到不舒服。

这些测试方法倾向于将机器人作为一个整体与人类进行比较，而不是将其分解为各个部分的具体特征。例如，在其他方面看起来很逼真的机器人的眼睛活动中，一个小小的误判就可能泄露整个游戏。其他面部区域的高质量特征也会成为失败的一部分。科学家的想法是一步一步地评估每一个领域。只要每个特征都被设计成是同一身体的一部分（相同的性别、年龄等等），那么如果一只眼睛和一张嘴可以单独通过测试，它们也应该一起通过测试。这将允许机器人制造者评估他们的研究进展，以确保每一个身体部位都与人类的没有区别，并防止最终出现落入“恐怖谷”的情况。

测试也被组织成四个阶段，每个阶段都比前一个阶段更难，代表了我们所说的“人类模拟的层次结构”。首先，机器人在静止时必须看起来很真实；其次，它必须以一种自然的方式移动；第三，它必须在外观和运动方式上对语言进行逼真的模拟；最后是对人工智能程度的测试，评估机器人是否能够通过真实地表达情感来对世界做出反应，从而与人类进行自然的互动。如果一个人形机器人可以同时通过所有四个等级的测试，那么它与人类在感知上是无法区分的。

“我们只能看到前方很短的距离，但我们可以看到有很多事情需要做。”今天，这句话就像图灵在1950年说的一样准确。然而，机器人工程师比以往任何时候都更接近于实现他们的目标。一个现实的类人机器在2017年出现在世界上第一个机器人公民的就职典礼上。今天，我们有工具来开发外形、动作、语言和嵌入式人工智能越来越逼真的类人机器人。我们的多模态图灵测试为工程师提供了一种方便的方法来评估和改进他们的工作。

（作者系中国科学院大学教授、国际科学素养促进中心研究员）