AI，无师自通，自学成才？ --科技日报数字报

今日视点

人工智能（AI）领域再次出现惊人突破——据英国《自然》杂志近日发表的论文报道，一款新版的“阿法狗”（AlphaGo）计算机程序能够从空白状态起，在不需要任何人类棋谱输入的条件下，自学围棋，无师自通，自学成才。

这款新程序名叫“阿法元”（AlphaGo Zero），其以100比0的不败战绩，狠狠打击了曾书写历史的旧版“阿法狗”。

实力，“阿法狗”的辉煌战绩

人工智能“阿法狗”出自谷歌旗下深度思维（DeepMind）公司。最早在2016年1月，《自然》杂志以封面位置报道该程序在和所有其他围棋程序的对抗中获得了99.8%的胜率，并且以5∶0的成绩打败了欧洲围棋冠军。

随后同年3月，“阿法狗”挑战世界围棋冠军李世石，经五局鏖战，人类1∶4不敌人工智能，引发巨大轰动。人们的震惊源于在围棋19×19棋盘上，一步甚至会有几百种走法，传统的人工智能算法难以估计局面和下子。

但“阿法狗”仍在积攒实力。今年1月，一个神秘账号Master公布自己正是“阿法狗”新版。该账号在知名围棋平台上先后挑战柯洁、朴廷桓和井山裕太等顶级高手，豪取胜利，随后战赢“棋圣”聂卫平，直至60盘时自爆身份，决胜收官。

3天，“阿法元”的无师自通

此次在最新论文中，英国伦敦深度思维公司“阿法狗”项目的主要负责人戴维·西尔弗、戴密斯·哈萨比斯及其同事，报告了新版“阿法狗”软件——“阿法元”。

“阿法元”最引人注目之处在于其无师自通的本领。其学习从“零”开始，单纯基于与自己的对弈，不需要任何历史棋谱的指引，也不需要任何人类经验的点拨。

对于这个新软件，人类的输入仅仅限于一张棋盘和一副棋子，没有任何人类数据参与。“阿法元”只用到了一张神经网络，这张网络经过训练，专门预测程序自身的棋步和棋局的赢家，让“阿法元”在每次自我对弈中进步。

通过3天的训练——包括近500万局自我对弈——“阿法元”已能够超越人类并打败之前的“阿法狗”版本。戴维·西尔弗表示，“阿法元”远比“阿法狗”强大，它已不再为人类的知识所限，而能够自行发现新知识。

摆脱了人类经验的辅助和依赖，人工智能竟然变得更强！在“阿法元”崭露头角后，人们揣测：难道我们人类还耽误“阿法狗”了？

震惊，AI的独立发现

其实，人工智能的最大挑战之一，即是研发一种能从“零”开始、以超人类的水平学习复杂概念的算法。

在去年3月那场世所瞩目的比赛中，“阿法狗”软件打败了人类围棋世界冠军。当时的这款围棋程序，是利用价值网络去计算局面，用策略网络去选择下子。

但为了赢得这场人机大战，科学家团队在训练“阿法狗”时，同时用到了监督式学习（基于上百万种人类专业选手的下棋步骤）和基于自我对弈的强化学习。旧“阿法狗”训练过程长达几个月，用到多台机器和48个TPU（神经网络训练所需的专业芯片）。

而此次，据研究团队介绍，新程序“阿法元”只使用了一台机器和4个TPU。

在“阿法狗”之前，最成功的围棋程序仅能达到人类业余选手的程度，还不能在不让子的情况下和专业赛手一较高下，原本人们认为，至少要10年后人工智能才有可能达到这一成就。但“阿法狗”的横空出世改写了预言。而在其问世不足两年的时间里，“阿法元”再次刷新人们的认知——随着程序训练的进行，人工智能已独立发现了人类用几千年才总结出来的围棋规则，还建立了新的策略，可以说，人工智能已经为这个古老的游戏，带来全新见解。

（科技日报北京10月22日电）