如果围棋有分数:人类最强棋士柯洁 3625 分,AlphaG

如果围棋有分数:人类最强棋士柯洁 3625 分,AlphaG

知道 Google 会分享,就是不知道会这幺快。

虽然只有 1/4 子,AlphaGo 在对战柯洁时那种游刃有余,稳扎稳打的作风已然显示出其强大的实力。

如果围棋有分数:人类最强棋士柯洁 3625 分,AlphaG

DeepMind 创始人兼 CEO Demis Hassabis(左)和首席科学家 David Silver(右)

此次围棋峰会的另外一个重头戏——中国乌镇·人工智能高峰论坛正式开始。雷锋网也第一时间来到了现场,首先上台演讲的不是别人,正是打造围棋人工智能 AlphaGo 的两位关键人物:DeepMind 创始人兼 CEO Demis Hassabis,以及 DeepMind 首席科学家 David Silver。

在各自短暂的演讲中,Hassabis 和 Silver 分别对 AlphaGo 能取得当下成绩的原因进行了整体说明,同时还收集了一大批围棋界人士的评论。但最令人意料之外的还要属最新版 AlphaGo 的信息披露。

AlphaGo Master:世界上实力最强高的电脑围棋玩家

如果围棋有分数:人类最强棋士柯洁 3625 分,AlphaG

之前坊间也一直在猜测,究竟今年年初以 Master 出现在野狐平台横扫 60 名职业棋手的 AlphaGo 是什幺版本。

在 David Silver 展示的 PPT 中明确提到了三种 AlphaGo 的称呼:AlphaGo Fan(与樊麾对弈的版本)、AlphaGo Lee(与李世石对弈的版本)、AlphaGo Master(驱动 Master 的版本)。相比之前坊间风传的 V18/V20 等版本称号,这三个名字容易理解不少。

他们三者之间最主要的差别就是棋艺水平,Google 现场也展示了三者的围棋 ELO 等级分:

如果围棋有分数:人类最强棋士柯洁 3625 分,AlphaG

2015 年 10 月登场的 AlphaGo Fan 等级分大约在 2900 分左右,2016 年 3 月登场的 AlphaGo Lee 等级分大约在 3700 分左右(李世石本人目前 3530 分),今年年初登场的 AlphaGo Master 等级分已经来到了 4800 分左右。

考虑到目前世界第一人柯洁的等级分不过 3625,Google 还给出了一个 AlphaGo Lee 与 AlphaGo Master 之间参考性的让子数目——3 子。

台湾企业要如何像 AlphaGo 一样走在时代最前端,赶上联网时代企业管理先机? 6/16 经理人关键讲堂解密

如果围棋有分数:人类最强棋士柯洁 3625 分,AlphaG

如果围棋有分数:人类最强棋士柯洁 3625 分,AlphaG

柯洁本人在现场目睹这个差距之后也不由得在微博上发表了自己的感受:

值得注意的是,等级分的数值实际上是由一系列比赛中的胜负来确定的,这个数值在输赢都存在的情况下比较準确(高低都有参考值)。而 AlphaGo Master 之前一举面对职业围棋人士连胜 60 盘,等级分很可能还远没有达到真实的水平(上未封顶)。

雷锋网昨天也引用了三联生活周刊科技记者昨天就在朋友圈中的相关观点,即想要知道最新版 AlphaGo 到底超出人类多少,让子再赛很可能是唯一的证明方法。

如果围棋有分数:人类最强棋士柯洁 3625 分,AlphaG

当然,这三者在配置、运作方式上也截然不同。 以下是根据现场整理的一份简单表格。

如果围棋有分数:人类最强棋士柯洁 3625 分,AlphaG

看到这里肯定会有人惊呼:从 50 个 TPU 减少到 1 个,Google 这是要逆天吗?这种想法实际上是错误的。

原因在于,AlphaGo Master 实际上是站在巨人(AlphaGo Lee)肩膀上的。

AlphaGo Master 的强大为啥与 AlphaGo Lee 息息相关?

如果围棋有分数:人类最强棋士柯洁 3625 分,AlphaG

如果非要分个阶段,AlphaGo Fan 实际上 与 AlphaGo Lee 可以划为同一时期。

这两者的整体算法架构都是一样的:「深度学习+蒙地卡罗搜索树+强化学习 」。或者你可以将他们理解为初中生和高中生的差别,挑战樊麾的版本在数据积累和算法细部规则上还没有打磨到极致,而后者则要完美不少。

到了 AlphaGo Lee 时,我们原来认为的「围棋人工智能障碍」——围棋棋局可能性太多,无法穷举找到最优解,已经被解决 。

如果围棋有分数:人类最强棋士柯洁 3625 分,AlphaG

围棋中庞大的蒙特卡洛搜索树

简略点来说,Google 实际上找了两种「偷懒」的办法:首先是在进行下一步落子计算时,只参考通过深度学习得来的人类落子选项。(人类如果不下的地方,它就不计算)

第二是估值网络,在每一步落子之时想要直接算出结局,同样是不可能的。因为随着预测步数增多,蒙特卡洛搜索树中需要计算的内容也会指数式上涨。所以 AlphaGo 引入了一套打分体系。没有一个地方是 100% 赢,只是对比其他地方,这一个点落子更好。

通过这两步纵向和横向的精简之后,AlphaGo 达成了一个几乎不可能完成的任务——在去年 3 月的比赛中战胜了李世石。

但除了最终结果外,AlphaGo 在那次比赛中的少数表现同样值得关注:时常下出一些人类觉得有问题的棋招;在第四场李世石神之一手之时,其估值网络发生了断崖式的波动。

这无疑反映出了 AlphaGo Lee 自身的不成熟。

如果围棋有分数:人类最强棋士柯洁 3625 分,AlphaG

那幺怎幺样才能再上一层楼呢?不同于之前很多人猜测的「完全摒弃 AlphaGo 中的人类元素」,Google 採用了一条更加稳妥的道路——建一个全新的神经网络,在 AlphaGo Lee 的基础上进行二次「学习」,并且将学习到的东西不断记下来。

这也使得 AlphaGo Master 变得比 AlphaGo Lee 更加严谨,同时也更加稳定。这也是为什幺会出现昨天三番棋第一场末尾阶段 AlphaGo 丝毫不怕柯洁追击,只採用最稳固策略的原因。当然,其他疑问也依旧存在,例如 AlphaGo Master 究竟是如何依靠单台 TPU 完成整场比赛的运算?在比赛过程中 AlphaGo Master 是否需要 AlphaGo Lee 的帮助?

另外一方面,Google 最终没有选择「抛弃」人类,总算说明人类 2600 年的围棋历史并不是毫无沉澱。这或许还算一个难得的小欣慰。

现在想谈数位领导,对于西方企业来说,重点就只是「转型」;但对于台湾来说,是「升级」加上「转型」双重议题。面对挑战,你的公司缺少哪些数位发展 know how?立即参与调查,掌握升级商战策略>>

如果围棋有分数:人类最强棋士柯洁 3625 分,AlphaG

——

推荐阅读