AI进化必须修复“注意力Bug” --科技日报数字报

在未经充分训练的情况下，让AI关注人是容易的，但关注某个特定的人是困难的。

在美剧《西部世界》中，AI主人公觉醒，并意识到这个世界是人类杀伐决断的乐园，于是开启了反抗之路；电影《黑客帝国》中，AI将人类豢养起来，控制了整个世界……那么在科幻世界中拥有了意识的AI，在未来生活中能否实现？

日前，在2020年国际学习表征会议（ICLR）上，图灵奖得主、蒙特利尔学习算法研究所主任约书亚·本吉奥（Yoshua Bengio）对AI的未来提供了最新见解。他认为未来机器学习完全有可能超越无意识，向全意识迈进。而注意力机制正是实现这一过程的关键要素。

人类的注意力机制和人工智能的注意力机制是否一样？现在应用于人工智能的注意力机制还要解决哪些bug，才能让AI真正具备注意力？就此，科技日报记者采访了有关专家。

目的在于减少对无用线索的关注

什么是注意力机制？“注意力机制来源于人类的视觉注意力，即人类在进化过程中形成的一种处理视觉信息的机制。”中国科学院自动化研究所研究员张兆翔说。

张兆翔解释，人类视觉系统以大约每秒8.96兆比特的速度接收外部视觉信息，虽然人脑的计算能力和存储能力都非常有限，但却能有效的从纷繁芜杂的外部世界中有选择地处理重要的内容，在这个过程中选择性视觉注意发挥了重要的作用。如我们在看一个画面时，会有一处特别显眼的场景率先吸引我们的注意力，这是因为大脑对这类东西很敏感。

视觉注意机制的理论研究自20世纪80年代以来一直是神经科学和认知科学的热点研究问题，目前研究者们一般按照两类标准对注意机制进行分类。“从注意产生的方向划分为：自下而上数据驱动的注意、自上而下任务驱动的注意、两者结合共同产生的注意；从关注的对象划分为：基于空间的注意、基于特征的注意、基于对象的注意。”中国科学院自动化研究所副研究员王威介绍说。

“而对于人工智能来说，注意力机制是机器学习中的一种数据处理方法，广泛应用在自然语言处理、图像识别及语音识别等各种不同类型的机器学习任务中，其主要功能是减少对无用线索的关注。”福州大学数学与计算机科学学院、福建省新媒体行业技术开发基地副主任柯逍博士说。

厦门大学科技处副处长、人工智能系教授纪荣嵘认为，从本质上说，注意力机制是一个特征信息评估和筛选的过程。

一般认为，深度学习中的注意力机制最早是约书亚·本吉奥等人在2014年提出的软注意力机制。基于约书亚·本吉奥的这套理论后续又发展出了多步注意力机制、跨模态交互注意力以及时下非常火热的Transformer网络中的自注意力机制。

“目前研究的AI注意力机制各有各的特点，但总的来说就是构建输入与输出，或者构建输入数据在不同层面上的关联关系，从而达到重点突出部分区域或者数据间的部分关系，提升任务性能。”张兆翔说。

未经训练难以注意新鲜事物

最近几年，注意力机制已被应用到了人工智能的许多细分领域中。“人工智能是可以被设计出不同程度的注意力的。当需要不同程度的注意力时，我们可以设计多个注意力网络。”柯逍说。

据了解，从2016年开始，谷歌的翻译系统就已经使用了注意力机制来提升翻译质量。在文本问答、对话系统、知识图谱抽取等自然语言处理任务中，注意力机制基本成为了模型标配。在计算机视觉中，注意力机制的使用也成为了一种趋势，包括细粒度检索、图像分类、行人重识别等在内的多个研究任务中都有使用注意力机制的视觉模型。

既然说注意力机制来源于人类的视觉注意力，那么人类的注意力机制和人工智能的注意力机制是否一样？

柯逍认为，人工智能的注意力在一定程度上是人类视觉注意力机制的仿生，在功能上两者是近似的，但实际上有很大的不同。

“从过程上来看是非常相似的，都是在给定任务（查询）内容时，帮助人（或模型）去关注最相关的数据信息。” 纪荣嵘举例说，如在被问及“桌子上有什么东西？”的时候，人类就会聚焦到桌子的区域。同样，在视觉问答任务中，人工智能模型也会聚焦到包含有桌子的视觉区域，然后回答“有什么”。

纪荣嵘指出，从原理来说，人工智能的注意力机制主要是通过计算查询信息与给定特征的语义关联程度,来获得模型的注意力分布，而人类的认知系统则可能会更加复杂。

“人工智能运用注意力的过程实际上是一个记忆查询的过程，它很快很精确，但无法发现异常。”柯逍举例说，如让AI的注意力多次从同一张图片上获取关注区域信息，结果永远是一样的；但如果让人类来做这个事，人类看第一次的时候会关注自己感兴趣的区域，但随着观察图片次数增加，人类可能会关注这张图片的其他区域。

柯逍指出，此外人类的注意力很容易就可以做到去关注某个特定的事物，比如人群中的某个人，但是AI注意力没办法在未经充分训练的情况下做这件事，让AI关注人是容易的，但关注某个特定的人是困难的。另外还有一点最大的差别是人类注意力会关注从未见过的新鲜事，而AI注意力机制不会。

与人类注意力相比差距明显

据了解，认知神经科学对意识的定义是“对一个人内在思想的感知，或者是对外部事物或内在事物的察觉”。意识形成的过程是一个信息不断筛选、处理以及演化的过程。

“约书亚·本吉奥在2017年的时候曾尝试用机器学习的方法来证明这个理论，其中一个关键环节就是使用注意力机制去选择‘意识状态’。所以，从信息提炼的角度来说，注意力机制对形成机器意识是非常重要的。”纪荣嵘说。

类比人类思维，AI注意力机制靠直觉还是靠推理？

“目前来说，人工智能的注意力机制更接近直觉。”柯逍说，大部分注意力机制，是在训练过程中重复告诉AI应该注意哪些地方，哪些东西是有关联的。如在训练AI的时候，不断让AI学习关注猫在河边吃鱼的区域，AI再看到有猫特征和鱼特征的图片时，就会关注猫和鱼区域，而不会看到猫，看到河推理出可能有鱼，然后再去找鱼，再关注鱼的区域。

“近期的注意力模型研究也有倾向于对推理能力的提升。”纪荣嵘举例说，如近年热门的Transformer模型就利用了多层的注意力网络来不断提炼和处理输入的信息。在这一过程中，每一层的注意力结果都是在变化，从某种程度来说，可以认为模型是在推理。

现在应用于人工智能的注意力机制还要解决哪些问题，才能让AI真正具备注意力？

“首先需要增加模型的知识储备。当模型有充足的知识后，才知道哪些信息需要去关注，例如，模型如果没见过飞机的话，就不能很好地执行关于飞机描述的查询。”纪荣嵘说，另外还需要对注意力模型的结构进行改进，提升模型的推理能力，这样模型才能够在复杂的语境下运用注意力完成复杂操作。

柯逍认为，就目前来说，AI注意力和真正的人类注意力距离仍然很遥远。