人工智能继续进阶 --科技日报数字报

本报记者张梦然

今日视点

在人工智能（AI）领域，“阿法狗”（AlphaGo）是个嚣张的名字。自2016年3月甫出茅庐震惊世人后，该程序妙手迭出，一路刷新纪录。

至本月初，谷歌的AI子公司深度思维宣布“阿法狗”升级成了“阿法零”（AlphaZero），已一举击败国际象棋、将棋、围棋类三个世界冠军级的电脑程序。

12月11日，该公司发布“阿法狗”教学工具。两天后，团队资深研究员、曾代AI执子的“人肉臂”黄士杰，宣布正式离开“阿法狗”，转投深度思维其他项目。

“阿法狗”不断升级

2016年，名为“阿法狗”的AI在和所有其他围棋程序的对抗中获得99.8%的胜率后，进一步学习，于当年3月挑战人类围棋世界冠军。五局鏖战，人类1∶4不敌AI，轰动一时。人们将这一成绩视为彼时人工智能的巅峰之作，没成想，这只是“阿法狗”的起步。

今年1月，一个神秘账号Master在知名围棋平台上先后挑战柯洁、朴廷桓和井山裕太等顶级高手，豪取胜利，随后战赢“棋圣”聂卫平，直至60盘决胜收官时自爆身份，公布自己正是“阿法狗”新版。

10月，“阿法狗”程序再次升级——“阿法元”(AlphaGo Zero)出现，其以100∶0的不败战绩，狠狠击败了曾书写历史的旧版“阿法狗”，而且能够从空白状态起，在不需要任何人类棋谱输入的条件下，无师自通，自学围棋。

直至12月6日，深度思维再出惊人之举：其研发的新一代“阿法零”，凭借强劲的计算资源，使其经过不到24小时的自我对弈强化学习，就接连击败了国际象棋、将棋、围棋三个世界冠军级的电脑程序，自此成了全能棋王。

“阿法零”独孤求败

最新出现的“阿法零”，是深度思维团队继“阿法元”问世之后带给人们的又一全新算法，并称它是“更通用版本”。

目前，“阿法零”算法可以在8个小时训练后击败去年对战李世石版本的“阿法狗”，再以4小时训练击败世界顶级的国际象棋程序Stockfish；又用2小时训练击败世界顶级将棋程序Elmo。

与前辈“阿法元”相比，“阿法零”有很多自己的独到之处。首先，“阿法元”是在假设结果为赢/输二元的情况下，对获胜概率进行估计和优化，而“阿法零”会将平局及其他潜在结果都考虑在内，深一步估计和优化；其次，“阿法零”并不是靠转变棋盘位置进行数据增强，它只对单一神经网络进行维护，并不断更新该神经网络；最后，“阿法零”所有对弈都重复使用相同的超参数（开始学习过程之前设置值的参数，而非通过训练得到的参数数据），因此无需额外针对特定某种棋类再进行调整。

下一步落地应用

本月11日，深度思维拿出了一套“阿法狗”教学工具。“阿法狗”团队核心成员黄士杰在其社交媒体账号上介绍说，该教学工具总共收录了约6000个近代围棋史上主要的开局变化，从23万个人类棋谱中收集而来，而所有盘面都有“阿法狗”评估的胜率及推荐的下法。

这套教学使用的其实是神秘账号Master那一版的“阿法狗”。但这里所有的胜率与下法，AI都思考过将近10分钟——这意味着1000万次模拟，而每一个开局变化，“阿法狗”都固定延伸20步棋。再加上下法，整套教学工具约有2万个分支变化，37万个盘面。团队成员希望，人们能感受这套教学工具中的创新，并可从中获益。

教学系统推出两天后，黄士杰宣布正式告别“阿法狗”，投身公司的其他研究中。

其实早在今年5月，当“阿法狗”战胜柯洁后，深度思维就宣布此后该程序不会再参加到人机大战的竞技中去。团队的下一步计划，是研发出广泛算法以投入应用，包括给出疾病的治疗方案、设法将能源消耗降低，以及发明出革命性新材料等。

现在，深度思维已与谷歌数据中心共同研发管理制冷系统的新技术，并与英国全民医疗健康系统达成合作。他们，在让AI相关算法真实落地于应用中。

（科技日报北京12月14日电）