想要推理能力比肩人类 AI先得换种学习方式 --科技日报数字报

不管是人类，还是动物，在学习大多数事物时，都是在自我监督的模式下进行的，而不是强化学习模式。这个模式本质上就是观察这个世界，然后不断与之互动，这种观察是自发的，而不是在测试条件下完成的。

本报记者金凤

人类在漫长的进化中，获得了一种能通过感知、逻辑推理来与世界互动、认识世界的能力。当一个梨摆在我们面前时，我们能够通过嗅觉、视觉等，判断出它是梨而非苹果。当在路上行驶时，即使行人被部分遮挡住，我们也能从露出的部分体貌特征判断出这是一个人，从而进行避让。

在人工智能领域，科学家们也一直试图让机器拥有像人一样的逻辑思维能力，帮助人完成更多工作。

近日，在2020 ICLR大会上，图灵奖得主舒亚·本吉欧（Yoshua Bengio）和扬·勒昆（Yann LeCun）发表观点称，自监督学习有望使AI产生类人的推理能力。本吉欧相信机器最终可以习得关于这个世界的各种知识，这种知识的获得并不需要机器去亲身体验各种真实发生的事件，而是通过习得语言化的知识来实现。

那么机器如何具备类人的推理能力？想具备类人的推理能力还要逾越哪些障碍？

“死记硬背”让机器难有逻辑能力

购物时，无需出示支付码，将面部特征绑定银行卡就能轻松消费；回家路上，查询手机地图，可以看出哪些地段拥堵；到饭点了，跟机器人对话叫外卖……这些基于机器学习的应用，正在让人工智能变得可观可感。但机器学习面临的挑战便是，需要大量数据的积累以及很强的算力。

机器学习分为监督学习、无监督学习和强化学习。“监督学习需要对数据进行标签分类，数据需要涵盖所有可能的场景，此外，完成学习，机器还需要大量的算力。例如，如果希望创建图像分类模型，则必须为系统提供经过适当分类标记的大量图像，让模型在其中进行充分训练。有时数据量达到百万、千万级规模，需要几百万、上千万次的迭代。”中国科学院自动化研究所研究员、视语科技创始人王金桥告诉科技日报记者。

因此，减少对数据的依赖，一直是研究人员最重要的探索方向之一。在南京航空航天大学计算机学院教授陈松灿看来，监督学习往往需要大量的带有注释、标记的数据，而标记这些数据，需要人工完成，既耗时又昂贵。

然而，即使是在有大量数据“打底”的监督学习环境中，一旦机器遇到不同于训练示例的全新状况，也面临着失控的风险。

“例如无人驾驶汽车行驶在一条陌生的道路上，前方虽然出现了路杆，但如果此前系统没有遇到过这种道路模式，就会撞上去。进入摄像头视野的行人，如果未露出全貌，那系统就无法判断出这是一个人，也会撞上去。还有我们进入停车场时，有些停车杆不能及时抬起，是因为靠近停车杆的行驶角度超出了此前设定的范围。”王金桥表示，虽然数据标签的质量，对于监督学习的效果非常重要，但监督学习不应局限于这种模式，应该提高对未知环境的探索和理解能力。

自监督学习可利用规律举一反三

对于机器学习的未来，扬·勒昆和约舒亚·本吉欧有着相同的期待，他们认为，自监督学习会创造出更像人类的人工智能。

正如勒昆所解释的，大多数人可以在30小时内学会驾驶汽车，因为他们已经凭借直觉构建了一个关于汽车行动方式的物理模型。

“自监督学习是无监督学习中的一种，它可以通过揭示数据各部分之间的关系、内在结构，从数据中生成标签，这种标签便于对数据进行分类。自监督学习需要学习的样本量很少，但需要有基础知识的积累。”王金桥说。

王金桥进一步解释，例如下围棋，如果机器可以将顶尖高手的棋路都学会，就能举一反三。又例如，假设世界上有5000种苹果的类型，植物学家又培育出一种新苹果，与其他苹果长得很像，那么自监督学习就可以通过数据的分析，识别出这是苹果，但又能认识到它是不同于以往的苹果类型。也就是说，通过自监督学习，机器不需要训练，就可以通过自动分析内部数据的结构关系，并且应用分析数据得到的规律，对各种新情况作出判断。这种能力类似于人，在婴幼儿时期，人类能用嗅觉、触觉、视觉等感知世界，进入学校学习后，能将万事万物的物理特征，与知识结合起来，慢慢形成推理能力。

王金桥认为，这有点类似于勒昆说的，自监督学习无需创建大量带有标签的数据集，例如用大量猫和狗的图片，让机器认识猫和狗的不同；也不用花费数千个小时训练“Alpha Zero”这样的国际象棋游戏机器人，而是只需获取一些丰富的原始数据，例如视频，然后“喂”给计算机，训练机器预测视频中即将出现的画面。

“不管是人类，还是动物，在学习大多数事物时，都是在自我监督的模式下进行的，而不是强化学习模式。这个模式本质上就是观察这个世界，然后不断与之增进互动，这种观察是自发的，而不是在测试条件下完成的。”勒昆在2020 ICLR大会上表示。

达到类人水平还需算法理论突破

在几位专家看来，目前想通过自监督学习实现机器的类人逻辑能力，还前路漫漫。

陈松灿认为，自监督学习需要解决数据的不确定性问题，即积累的数据与要完成的任务的匹配性问题。“例如，利用自监督学习训练的自动驾驶系统，可以通过机载的测速仪、方向仪，学习安全行驶的方向和速度信息。但以现在的技术水平来说，如果行人横穿马路，而此前标记的信息与行人横穿马路不搭界，那自动驾驶系统就会无法做出判断，发出指令。”

王金桥表示：“从监督学习到自监督学习，就像先让机器知道什么是1234，才能算加减乘除一样。目前的自监督学习还非常初级，仅有一些小的、封闭的数据集。”

他说，目前制约自监督学习的因素涉及大数据积累、小样本监督，以及自主进化、认知未知数据的能力。“在数据积累阶段，还需要把数据做得更规范，搭建的深度学习网络要有能支持自监督学习的能力，能让机器自己生成标签。在样本监督学习阶段，要解决样本不均衡的问题，例如要让机器学会分辨猫和狗，那么猫和狗的案例数量要匹配，同时要去除数据噪音，不要把干扰图像混入。”

“关键是要让自监督学习产生认知的能力，而不只是代替人类的视觉、听觉、触觉，要从感知智能过渡到认知智能，让机器建立自己的知识图谱，能与人的思辨能力和知识图谱对接，能进行知识表述和高阶推理。”王金桥说。

但目前所有的不完美，并不影响两位图灵奖得主的信心。本吉欧认为，相比于动物，人类之所以聪明，是因为我们有自己的文化，让我们能够解决这个世界的问题。要想让人工智能在现实世界中发挥作用，我们需要它不仅仅是有翻译功能，更需要它能够真正理解自然语言。

而在勒昆看来，如果说人工智能是一块蛋糕，那么自监督学习就是其中最大的一块。