Alpha Go系统战胜欧洲冠军,并将挑战李世石,让围棋爱好者吃了一惊。实际上,机器深度学习的论文和成果最近几年飞速增加,Google和Facebook等巨头也在投资布局。这次只是IT男小小炫耀了一下新技能。
上世纪九十年代的深蓝是一本棋步大辞典,囊括了最可能发生的对局。Alpha Go不同,它是个打谱学棋的小孩儿,只不过从菜鸟到大师至少十年的训练,它十天就搞定了。Alpha Go系统不拼计算速度,一共只用了几百个CPU和几百个GPU,依靠的是上世纪40年代开始发展的神经网络技术。
认脸、切菜、骑车、寒暄……人类下意识的技能,源于一次次奖励和惩罚让大脑有了“感觉”,或者说“悟性”。参与工作的神经元之间的铰链,或者说“突触”,会被欣快感加固,使大脑更容易重复这个动作。
想一想小孩子学说话:婴儿随意发出一些声音,喃喃中有那么几声在大人听起来有意义,妈妈就会惊喜地笑起来,奖励婴儿。如此重复,婴儿建立了“词感”,以及更后期的“句感”,越来越轻松地吐出旨在交流的声音。
人工神经网络也是同理:一开始,许多机器神经元组成的大脑是块白板,像婴儿说话一样输出低质量信息。当它某次恰巧说对了一句,参与的神经元之间的连接强度会被调高。训练多了,人工大脑慢慢不均匀了,成熟了,开始做出高质量的反应。
败给Alpha Go的欧洲冠军和监赛者认为:Alpha Go的棋步稳健,像人一样。过去的围棋软件则像机器人,不时来一招高手绝对不考虑的臭棋。大师和Alpha Go是通过海量的对局和阅读棋谱,培养出了“围棋感觉”——高手或许算不出二十步以后的局势,但能感觉出棋局大概该是什么模样。
曾有一项心理学研究发现,国际象棋大师超出常人的能力,是将复杂局势“模块化”,化繁为简,化新局面为熟悉套路,从而将计算力投放在关键部位。
模块化或曰“模式识别”,正是计算机的传统弱项。人类轻松辨认出人脸或笔迹,电脑却做不到。哪些细节是关键?哪些无关紧要?电脑一头雾水。
但依仗更高级的学习算法的Alpha Go有这个本事。在大量培训后,它能判断出棋局上的关键部位,减少没必要的“深蓝”式蛮算。如果Alpha Go的悟性用在游戏以外,前途不可限量。我们几乎可以肯定,一些枯燥的识别任务,几年后将由机器代劳。
顺便一提,即使哪天电脑的“悟性”反超人类,也不等于它更智慧。电脑能赢棋,能编辑财经新闻,但它不会发明围棋,也写不出莎士比亚的剧本。
(科技日报北京1月28日电)