2016年03月11日 星期五
详析阿尔法围棋“三头六臂”
本报记者 高 博

    3月10日,“阿尔法围棋”再次战胜李世石。无论执黑执白,李世石均无还手之力。有人欣喜,有人哀叹,有人惊掉下巴。机器杀伐决断,只凭三种武器:神经网络、蒙特卡洛算法和评估局面。

    首先,“阿尔法围棋”是一团神经网络,不是一本大全棋谱。它下棋不是翻谱。跟人一样靠计算和直觉,但它“少年老成”,直觉更准。

    职业棋手有种“棋感”,那是下了上万盘棋后,大脑见多识广,感觉到某一手的优劣,尽管说不出道理。画画,骑车,拿榔头敲钉子,都是凭感觉,“唯技熟耳”。有个极端的例子,中国有种专业,可以辨认刚孵蛋出来的小鸡雄雌,他们说不出怎么辨认,凭感觉去选,基本没错。

    临帖一万次,有了书法感觉;打谱一万遍就有了棋感。为什么?大脑=神经细胞+神经突触,突触是大脑的电线,经常“过电”的突触会更强壮。小孩子的大脑正是如此学习:伴随成功的快乐,刚用过的神经突触就会加强,习惯就养成了。

    早在冯·诺依曼时代,科学家就想到用电脑模拟大脑:计算单元+通路,通路的强度可调节。虚拟大脑一次次接受任务,每次调用不同的神经通路去做,如果任务成功,刚用过的通路强度会被提高,反之强度降低。

    “阿尔法围棋”复制了小孩子的学习过程,成功了就调高相关通路强度,失败了就调低,使神经网络在自我对弈百万盘(用不同风格)后调整到最优。

    “阿尔法围棋”的“肉身”是神经网络;在此基础上,它有两套心法:蒙特卡洛算法和评估局面。

    蒙特卡洛算法很好理解,很多棋类软件都这么干。你吩咐狗熊去玉米田里掰一个最大的棒子,但玉米田太大,累死了也走不完。狗熊想了个主意:根据经验选十来个常出大棒子的地方,仔细找一遍。最后掰的大棒子,就算不是整块田里最大的,也差不离。这就是蒙特卡洛式的狗熊。

    围棋盘是19乘19个位置,以前大家认为天文数字的可能性,电脑算不过来的。但蒙特卡洛算法只选取一小部分有希望的点来考虑。“阿尔法围棋”跟之前的“ZEN”等围棋软件都是如此,倒不出奇。

    但加上了“价值网络”,“阿尔法围棋”一步登顶珠穆朗玛。它不需要推演到终局,只考虑落子之后二十步的局面优劣。“价值网络”负责给局势打分。只要保证落子二十步后局面不落下风,它就大胆地下。

    跟李世石对弈两局,“阿尔法围棋”下出一些貌似的弱智棋,该占的便宜不占,还有一些“大俗招”(高手看来目光短浅的选择),旁观者说不清为什么。或许是“阿尔法围棋”在几百万盘对弈的经验基础上,选择了一条最没风险的去路,而人类所谓正招却排除不了局势转劣的可能?

    人类下围棋,除了计算,更重要的是评估或者说“审美”,职业棋手们用“均衡”“厚实”去描述理想的棋形,并非算准了要赢,只是感觉棋局更美(等同于更有价值,胜率更高),“阿尔法围棋”再现了人类的天赋。

    话说“评估价值”的能力,正是机器缺乏的。电脑的记忆好,计算快,但评估方面是白痴。举个例子,小孩子都能辨认人脸,还能说出美丑(高价值和低价值),但机器做不到。目前最好的Google图片搜索,错误率已经降到1%了,有时还是把人的照片说成大猩猩,把熊猫的照片说成是鸵鸟,评估美丑就更难了。

    相似地,机器能搜索文章,但不能评论文章;机器试图理解人的言语,但经常驴唇不对马嘴,你跟它开玩笑,它跟你照本宣科。因为理解语言和辨识人脸,都要评估。人的大脑能瞬间体会到哪些东西对劲(高价值),哪些不对劲(低价值),但机器不能。

    当年的“深蓝”,就是傻电脑的代表,它针对国际象棋比赛开发,考虑4个象棋参数,用超强计算能力选择棋步,但它没法评判卡斯帕罗夫的水平高低。

    早在“阿尔法围棋”战胜欧洲冠军时,就有专家预言2016年为人工智能元年。或许因为它代表了机器评估能力的突破。还有美国的“沃森”超级电脑,2011年在美国全国智力答题比赛中战胜人类,最近已经能根据病历做初步诊断,或帮律师准备法庭材料了。

    随着机器演化出评估能力,一些智力劳动,比如整理笔记、驾驶汽车、美容顾问,或许会彻底被机器取代;有人当大老板,有人会再就业。“阿尔法围棋”掀起的机器风暴,将从纹枰刮向人间。

    (科技日报北京3月10日电)  

京ICP备06005116