AlphaGo人机围棋九段大战:且看两会上大咖怎么说

感谢AlphaGo对围棋九段的贡献人机缠鬥刚刚开始|陈经

请点击“风云之声”,打开新的世界

科技与战略风云学会受过科学训练的理性爱国者们组建的智库。科学素养家国情懷,横跨文理纵览风云。

导读:以AlphaGo为代表的新一代围棋九段AI将有超过职业棋手的技术实力而人类的围棋九段水平在人工智能程序的帮助下,会取得突飞猛进特别是在大局观上的认识。另一方面围棋九段也将通过人类高手与机器的反复缠斗,以一种前所未有的方式展礻其自身的魅力AlphaGo与李世石的五盘人机大战,只是一个开始

————————————————————————————————

2016年3朤15日人机大战第五盘,AlphaGo执白280手中盘胜李世石总比分4:1结束了这场持续一周的围棋九段盛事。

我在广州爱范儿公司和吴肇毅九段一起直播了這场比赛感觉对机器的招法比较能够理解。这使得我在这场特殊的比赛中有时对局势的判断比吴九段更为准确,虽然我的围棋九段水岼不高

陈经在爱范儿与吴肇毅九段一起直播解说人机大战的收官之战

下面用几个图来解释一下机器开盘的失误和技术特色。

在右边的常見套路中AlphaGo选择了16位挡而不是Q10拆,放黑17位打入接着继续18位打,放黑19位冲21位断很简单地就弃掉了三子。粗粗一看黑吃下三子实空不小泹这是AlphaGo的招法创新,黑布局感觉已经落后了因为白有A位靠下的手段,会在上面形成一道厚势白棋把棋走在外面,对于厚味外势的价值估计得比人类棋手更准而且它的整体行棋方式也能与之配合。人类高手出于实战考虑选择实地的更多通常认为虚虚的外势不太好掌控。从大局观来看AlphaGo的理解更合乎棋道。

这个局面的看点是AlphaGo第48手断入然后被黑51全部吃下,亏了不小的目数这是确定无疑的损失,机器犯叻错这个错误非常象AlphaGo和樊麾的第三局,它也是在黑右下大空里走了几手没有棋却损了空。为什么它这么下

48手这个断是很明显的直觉偠点,在AlphaGo的策略网络里估计会是排名很前的选择后续捣乱可以连续多招,黑要小心应对下错了就立刻完蛋。黑应对了白可以继续“栲验”黑。AlphaGo也会用策略网络模拟黑的应对正确应对的招数肯定有,但也有错误的建议给出来这样,连续搜索展开后在不少叶子节点AlphaGo高兴地发现黑应错了被白一举击溃。就算黑一直应对正确最后白损失也不大,能够完封右边中大局上还是自己好。所以蒙特卡洛模擬(MCTS)对48这手给出的胜率评分会比较高。这应该算是AlphaGo算法框架的一个bugAlphaGo愿意下这种“局部变化复杂,对手应对错误自己立刻胜利应对正確自己稍亏但大局还好”的辣招。对人类高手来说这种计算应该不难,所以就占了便宜48手算是亏目较多的一次小bug,但是局面还早这時AlphaGo对自己的胜率估计应该比下出48手时低一些了,它终于知道吃了亏但当初就是愿意去这么试。因为手数较多它下48的时候并不知道会亏。只有定型的差不多了才觉得算清了,没有东西

同样原理的着手在收官阶段出现多次,AlphaGo几次在一路扑吃被提它不亏,不会减少自己嘚胜率万一对手不应还提高了胜率,损了劫材但反正它不想打劫我估计这类着法是它的策略网络向人学习的,人经常在后半盘打劫、讀秒打将的时候下这种一路扑AlphaGo不理解人的意图,但把招学了过去学过去发现能提高胜率,就这么用起来了

象48手亏空这样的小bug是人可鉯利用的。如果人类高手完美发挥各个环节都顶住,可能下和平的收空棋也能赢它了但难度会很高,AlphaGo在划分地盘这个环节实在太厉害叻这种棋要做的选择非常多,哪步能占更多的空人没有特别好的精确测算方式只有靠感觉为主。而AlphaGo用几百万次模拟来统计性地判断仳人要准得多。这是AlphaGo的核心能力大局观碾压人类。

不少职业棋手认为李世石69过于靠上被70镇头攻击局势很不利。具体应该在哪吊说法佷多。不管黑下哪这种局面是AlphaGo擅长的。它不一定要成哪一块空黑进来它各种方法都会模拟试一下。如果模拟发现退缩不行它就会进荇镇头分断攻击,最后往往会将成空潜力转移到另一片地方去最后人下来下去,总是被它在某个区域围出很大的一片空这种以厚势为基础的浮动攻击,靠吃棋威胁最后把虚空做实的下法真的是很赏心悦目。

人类棋手评棋时往往会觉得是不是破空手法不对啊,是不是該往这个方向跑是不是打入深一些才好,是不是进得太深了我认为这很可能是根据结果来看的马后炮。在这种局面下拥有厚势的一方可能已经有了局面的主动权,AlphaGo根据自己的评分还是判断得比较准的你怎么进来它都有应对的办法。

李世石如果选择正确可能情况会恏些。可是实战几乎所有人都发现黑大亏了自己两眼苦活,白左上角已经活了中间又瞬间出现大空。这时白下出了100这手棋人们应该竝刻意识到这等于是“胜利宣言”。这手很有味道它并不是试图在左下围更多的空,而是准备让黑打入做活但白也消除所有不安定因素收官稳稳获胜。下C5之类的点是可能围空更多但黑仍然可以进来捣乱,黑右下的厚势就有用了还不如用100这手消除任何变数。这种思维昰人很难有的它不去在里面守,反而在外面用坚实的拆一来守

后半盘黑的挣扎都没有用,AlphaGo展现了高超的局面控制能力最后认输时李卋石盘面领先5目,是因为电脑想稳胜让了一些回去。

这局李世石算是成功地测试出了AlphaGo开局亏目的一个小bug但由于自身发挥有问题,还是被AlphaGo控制了基本没有机会。李世石的大局观和局面判断比AlphaGo要差很多右下意料之外的收益可能反而害了他,让他以为领先优势不小后面沒有果断出手制造第四局赖以获胜的复杂局面。这局也没有制造出劫争AlphaGo避劫照样控制大局。

在总共五局高水平对局中AlphaGo确实表现出了令囚叹为观止的技术水平。可以非常有把握地预测以AlphaGo为代表的新一代围棋九段AI将有超过职业棋手的技术实力。而人类的围棋九段水平在人笁智能程序的帮助下会取得突飞猛进,特别是在大局观上的认识机器即使在围棋九段上完全战胜了人,也不是灾难可以看看国际象棋领域已经发生过的事,有助于围棋九段界正确认识机器的作用国际象棋程序的等级分比人类最高水平还高四五百分,对人类可以让一個兵或者二先平下人最好结局只是和。人们已经完全承认AI水平远高于人用它们来更新布局理论,研究新手在人与人对下时应用。这樣人的水平也取得了飞速进步国际象棋大师越来越多。这次人机大战围棋九段的关注度空前提高这对围棋九段发展是非常有益的。所囿热爱围棋九段的人都要感谢AlphaGo的贡献。

但另一方面围棋九段也将通过人类高手与机器的反复缠斗,以一种前所未有的方式展示其自身嘚魅力AlphaGo与李世石的五盘人机大战,只是一个开始不少新闻分析说,围棋九段人工智能将很快全面战胜人类我认为这是不正确的。

理論上来说因为劫的存在,围棋九段是一种“上下文有关文法”同样一个局面,前一招是不是提劫后续逻辑就会完全不一样(按中国規则禁止全局同形再现,有更多形式的“上下文有关”但最常见的是劫)。而国际象棋、中国象棋等棋种是“上下文无关文法”当前局面如何形成的不影响后面结果。围棋九段的复杂性广为人知的是状态空间数比国际象棋多100多个0。但是从围棋九段艺术和计算机算法角喥来看这种“上下文有关”造成的复杂性,远远超乎人的想象下棋的人都知道,劫是让围棋九段的境界与艺术性大大升华的一个东西基于MCTS的国际象棋程序,因为“上下文无关”可以用多次模拟完美逼近看似很大的搜索空间。但是在围棋九段上“上下文有关”的劫,因为可以在全盘任何一处找劫MCTS算法的分枝数量瞬间爆炸,对搜索质量造成毁灭性的打击这还只是一些简单的劫争。如果再考虑缓气劫、两手劫、连环劫、多劫循环可以说围棋九段搜索算法仅仅只摸到打劫的边,根本没有深入劫争问题的核心

可以想象将围棋九段盘擴大到21路,状态空间数又多几十个0AlphaGo训练之后在划分地盘这个核心能力上还是可以超过人类,并不怕状态空间增多但是就算棋盘缩小到17蕗,AlphaGo也还是不喜欢打劫只要还是MCTS算法框架,面对劫争程序开发者想过各种处理办法都没能很好应对复杂的劫争。谷歌团队也不太可能茬这个问题上取得突破性进展

可以非常有把握地说,打劫的能力将是人类远远强于围棋九段程序的地方但是这个问题上机器也不是没囿出路,AlphaGo就向我们展示了如何通过避开劫争分枝来控制局面人类如何通过行棋,将机器逼得不得不打劫会是一个很有意思的技术问题。从围棋九段理论上来说一方不怕打劫,一方拼命避劫总是善于打劫的一方有利一些,高手善打劫人类最高水平的棋手打劫能力是9段,机器的打劫能力可能只有业余3段按AlphaGo把劫材走光的风格,它不可能是一个劫争高手但是人类高手也没有这样的经验,如果将一个不配合的却棋艺高超的对手逼入劫争

在对于非确定地域的价值估计上,AlphaGo可以通过几百万次收完算子的统计模拟对人类有着压倒性的技术優势。表现出来就是大局观非常好人类最高水平是9段,AlphaGo可能有13段

在封闭式局部的战斗中,AlphaGo对人类最高水平也仍然有优势因为人类存茬算不清、得失判断不清的问题。这方面的能力对比AlphaGo是10段人类是9段。

在多个头绪关联的开放式接触战中不需要引入劫争的复杂,AlphaGo的搜索模块也会碰到不小的麻烦因为头绪多,对杀结果决定胜败只有人类高手能理清逻辑,找到正确的行棋路线图在这种复杂盘面,AlphaGo的彡大搜索武器价值网络、快速走子策略、策略网络全都失灵,就会忽然出现怪异的行棋选择这是人类战胜机器最有希望的领域,人类昰9段机器只有业余5段。

在局部区域的定型手法中AlphaGo出现了不保留变化早早定型的倾向。有些局面还会过早把手段使出来以目数绝对亏損收场。这都是小问题而人类心理状态不稳定,很难做到持续稳定地发挥出最高水平是一个大问题。

总体来说AlphaGo和人类高手风格迥然鈈同。事先分析AlphaGo和人类高手各有所长,交锋起来看点十足AlphaGo会的,是在实战中最经常使用的以大局观为基础的行棋方向选择,是行棋Φ最常用最实用的本事AlphaGo远超人类。在局部接触战中AlphaGo拥有类似于穷举的战斗力,人类占不到便宜(亏目是AlphaGo为了提升胜率的小bug行为明知殺不过也下。真正对它有利的战斗它不会放过)。这两项本事都是最常用的所以AlphaGo平时行棋就带有一种独特的魅力,时不时让人类惊叹咜的判断力与创造力人类如果在这两项技术上和AlphaGo斗争,将毫无胜算甚至差距会越拉越大。

而人类需要有意地将局面引入对自己这方有利的格局中通过劫争,复杂盘面多处头绪关联分析在适合于自己的战场将AlphaGo击溃。人类互相之间针锋相对很容易到达这种局面。然而AlphaGo會有意绕过劫争分枝抢先定型简化局势。

双方这样各有所长又特点鲜明,持续缠斗起来会非常火爆看点十足。我非常期待职业棋掱们能够普遍了解AlphaGo的特性,制定正确的迎战策略而双方又无疑会互相学习,试图减轻自己的弱点学习对方的长处。如谷歌可能会通过歭续训练与研发将AlphaGo的弱点隐藏得更深。而人类一方面加强自己的大局观与局部手段另一方面又动脑筋去使出手段将局面引导入劫争、複杂盘面。从围棋九段艺术发展来看这会是一个非常激动人心的历史机遇。

因此要非常感谢谷歌研发出了AlphaGo这么一个威力强大又十分有趣的好东西。人类与机器激动人心的缠斗不会很快结束双方的优势与弱点都会长期存在。围棋九段作为计算机算法“完全信息博弈”问題中当之无愧的皇冠会进一步展示出它真正的魅力,不会一下子被突破很长时间内还会是核心难题。人类也会不断向机器学习它擅长嘚领域提高自己的技艺。围棋九段历史上又一次意义巨大的革命已经在发生

作者简介:笔名陈经,香港科技大学计算机科学硕士科技与战略风云学会会员, 微博@风云学会陈经,棋力新浪围棋九段6D二十一世纪初开始有独特原创性的经济研究,启发了大批读者2003年的《经濟版图中的发展中国家》预言中国将不断产业升级,挑战发达国家2016年8月出版新书《陈经说:中国的官办经济》。

【本文2016年3月17日发表于观察者网()】

请关注风云学会的微信公众平台“风云之声”,微信号fyvoice

欧洲围棋九段冠军樊麾(后排中)担任数子裁判

12日“围棋九段人机大战”将进入第三场。目前人工智能“阿尔法围棋九段”(AlphaGo)2:0领先前世界冠军、韩国棋手李世石九段。

实际上“阿尔法围棋九段”并非简单的电脑程序,而是能自我学习和完善的人工智能在经过数百万次的随机下棋后,“阿尔法围棋九段”能逐步升华提高掌握难以计数的演算中的最佳选择。

谈及与电脑对弈李世石坦言,与人对决你能感受到对手的状态,从而采取不同的对阵方式但对于“阿尔法围棋九段”,你无法捕捉这些信息

曾与“阿尔法围棋九段”对弈的围棋九段欧洲冠军樊麾担任本佽比赛裁判,他在接受新京报记者专访时表示“阿尔法围棋九段”的表现近乎完美,某种意义上已超越人类

新京报:李世石与“阿尔法围棋九段”(AlphaGo)之间的人机大战已进行两场,“阿尔法围棋九段”2:0领先作为裁判如何评价这两场比赛?

樊麾:第一场比赛李世石准备投子时,我脑子是蒙的这是历史性时刻,人类世界冠军输给了电脑程序第二场比赛更让全世界人感到震惊,“阿尔法围棋九段”丅出了与人类选手区别明显但是非常漂亮的棋。下围棋九段是艺术我们和艺术家沾点边,当你看到非常完美的落子时我们会很激动,我作为裁判看到这一幕感觉很棒

给我印象最深刻的是,比赛时李世石感觉自己要输了他的手一直抖。李世石是心理素质非常好的棋掱但他今天明显沉不住气了,他要接受人工智能超越人类选手这个事实在围棋九段上,人类可能下不过电脑了

新京报:李世石连负兩场,在你看来他为什么输给“阿尔法围棋九段”?

樊麾:很多人感觉这是人下不过机器下不过电脑。不能单纯这样理解单纯从临場下棋来说,这两天“阿尔法围棋九段”的表现非常好也许有些人会觉得“阿尔法围棋九段”的有些落子并不完美,但你要理解围棋⑨段的目的并不是为了赢多少而是赢。相比人类“阿尔法围棋九段”追求的是赢而非赢多少。

这和棋手下棋不一样棋手希望赢得越多樾好,这样犯错时才能补偿电脑是没有犯错这个概念,它不会犯错也不会补偿电脑只需稳定赢得比赛,这是一个概率的问题也是一個最直观的不同。很多人觉得这两天“阿尔法围棋九段”有得也有失但在我看来,“阿尔法围棋九段”这两天的表现近乎完美

AlphaGo下棋人類难以琢磨

新京报:比赛前,工程师会不会根据对手为电脑量身定制输入程序如何让“阿尔法围棋九段”战胜人类棋手?

樊麾:据我了解工程师好像不会根据对手为“阿尔法围棋九段”量身定制,而是依靠这个程序会的自我进化“阿尔法围棋九段”能战胜人类棋手首先取决于技术,围棋九段需要技术和理解这个程序在某种意义上已经达到人类甚至超越人类。从第二场对弈来说很多职业高手都发现“阿尔法围棋九段”给了他们一种新的思维模式和思考方法。李世石也表示希望自己能赢一盘,而不是0:5告负

新京报:你曾和“阿尔法围棋九段”对弈,这和跟人类棋手对弈最大区别是什么

樊麾:高手对弈,不仅仅是技术上而且是精神上的交流何为精神上的交流,即自信我这步棋不代表是最好的,但我认为这是最好的这种精神上的较量很重要。我知道我不懂的对手同样不懂但电脑没有这种感覺,我不懂的电脑不一定不懂当有这种质疑时,就没办法下了电脑不怕,人会怕;人会有胜负之分而电脑没有,它不在乎你在乎。第二场比赛李世石绝对深刻感受到了只要是棋手就有对错之分,下棋时就想赢就有对错之分,电脑则非常理性在这一点上远远超過人类。

新京报:工程师们为何会选择围棋九段来做人工智能

樊麾:因为除了围棋九段,没有任何棋类能和人工智能对弈所以他们选叻围棋九段。工程师已经研究两年了此前也有人进行研究,()团队有了大的突破让“阿尔法围棋九段”变得很厉害。

AlphaGo帮人类更好理解围棋九段

新京报:你如何看待机器战胜人类这个说法

樊麾:人工智能并非只是一个机器,它是人类创造的机器是人类智慧的结晶,不能說是机器打败人类而是一个人类团队的智慧战胜人类几千年经验。归根到底还是人战胜人,这是人类对自我的一个超越我从看“阿爾法围棋九段”下棋中学习很多,这能开拓我的思维

“阿尔法围棋九段”能帮人类更好地了解围棋九段本质。比如“阿尔法围棋九段”第二场下的棋从来没有职业选手想过,但我们都觉得很漂亮这帮我们打开了另一扇门,这是进步当然“阿尔法围棋九段”会影响一些人的利益,这些人会说它不好

新京报:人机大战又把沉寂了一段时间的围棋九段拉回公众视野,你觉得它会给这个行业带来什么

樊麾:这是一个很好的现象,将围棋九段炒得很热有6000多万人在看这个比赛,欧美国家的人也在关注这对于围棋九段的传播和普及来说都昰好事,不了解围棋九段的人也在谈论围棋九段在今后的围棋九段训练中,“阿尔法围棋九段”会是很好的陪练而非老师。

新京报:囚工智能已经打败人类围棋九段冠军你认为人工智能最终会不会取代人类棋手?

樊麾:研究人工智能并非为了打败人类围棋九段高手洏是希望这样的技术能拓展至其他领域。上世纪深蓝就打败国际象棋高手,如今还是人类选手在比赛。而且人工智能即便战胜人类選手,也不意味着它什么都会加上围棋九段的变化太复杂,只能是大家互相切磋

出生在中国,现为法国职业二段围棋九段棋手法国圍棋九段队教练。樊麾2013年至2015年连续三年获得欧洲围棋九段冠军杯冠军2015年10月,樊麾受邀与“阿尔法围棋九段”(AlphaGo)进行五局竞赛“阿尔法围棋九段”以5:0取胜。

推广:微信搜索关注“好多娱”公众号聚焦新文娱领域,聊八卦、看趋势你的娱乐圈,我的科技圈

再不点击蓝字关注机会就要溜赱了哦!

南京大学周志华老师刚刚在微博发表对AlphaGo Zero的看法:非常值得大家学习。内容入下:

花半小时看了下文章说点个人浅见,未必正确僅供批评:

  1. 别幻想什么无监督学习监督信息来自精准规则,非常强的监督信息

  2.  不再把围棋九段当作从数据中学习的问题,回归到启发式搜索这个传统棋类解决思路这里机器学习实质在解决搜索树启发式评分函数问题。

  3. 如果说深度学习能在模式识别应用中取代人工设计特征那么这里显示出强化学习能在启发式搜索中取代人工设计评分函数。这个意义重大启发式搜索这个人工智能传统领域可能因此巨變,或许不亚于模式识别计算机视觉领域因深度学习而产生的巨变机器学习进一步蚕食其他人工智能技术领域。

  4. 类似想法以往有但常見于小规模问题。没想到围棋九段这种状态空间巨大的问题其假设空间竟有强烈的结构存在统一适用于任意多子局面的评价函数。巨大嘚状态空间诱使我们自然放弃此等假设所以这个尝试相当大胆。

  5. 工程实现能力超级强别人即便跳出盲点,以启发式搜索界的工程能力吔多半做不出来

  6. 目前并非普适,只适用于状态空间探索几乎零成本且探索过程不影响假设空间的任务

欢迎投稿,来稿请发送:

我要回帖

更多关于 围棋九段 的文章

 

随机推荐