围棋的变化是有dnf阿修罗极限邪光斩的,这是阿法狗测算出来,lol有吗

当前位置 & &
& 中国第一人柯洁对阿法狗彻底发飙:咱动手别...
中国第一人柯洁对阿法狗彻底发飙:咱动手别BB了
07:42:33&&作者:
编辑:万南 &&)
让小伙伴们也看看:
阅读更多:
好文共享:
文章观点支持
当前平均分:0(0 次打分)
[03-18][03-17][03-17][03-15][03-15][03-15][03-15][03-15][03-15][03-15]
登录驱动之家
没有帐号?
用合作网站帐户直接登录阿法狗之父:关于围棋 人类3000年来犯了一个错
杰米斯·哈萨比斯,Deep Mind创始人, AlphaGo之父。
正在加载...
4月10日,“人机大战”的消息再次传出,关于人类和AI的对抗再次牵动世界的神经。“我会抱必胜心态、必死信念。我一定要击败阿尔法狗!”对于5月23日至27日与围棋人工智能程序AlphaGo(阿尔法狗)的对弈,目前世界排名第一的中国职业九段柯洁放出豪言。然而,AlphaGo(阿尔法狗)之父却说,“我们发明阿尔法狗,并不是为了赢取围棋比赛。”AlphaGo之父杰米斯·哈萨比斯(Demis Hassabis)近日在母校英国剑桥大学做了一场题为“超越人类认知的极限”的演讲,解答了世人对于人工智能,对于阿尔法狗的诸多疑问——过去3000年里人类低估了棋局哪个区域的重要性?阿尔法狗去年赢了韩国职业九段李世石靠哪几个绝招?今年年初拿下数位国际大师的神秘棋手Master究竟是不是阿尔法狗?为什么围棋是人工智能难解之谜?杰米斯·哈萨比斯,Deep Mind创始人,AlphaGo(阿尔法狗)之父, 4岁开始下象棋,8岁时在棋盘上的成功促使他开始思考两个至今令他困扰的问题:第一,人脑是如何学会完成复杂任务的?第二,电脑能否做到这一点?17岁时,哈萨比斯就负责了经典模拟游戏《主题公园》的开发,并在1994年发布。他随后读完了剑桥大学计算机科学学位,2005年进入伦敦大学学院,攻读神经科学博士学位,希望了解真正的大脑究竟是如何工作的,以此促进人工智能的发展。2014年他创办公司Deep Mind, 公司产品阿尔法狗在2016年大战围棋冠军李世石事件上一举成名。哈萨比斯在当天的演讲中透露了韩国棋手李世石去年输给阿尔法狗的致命原因,他最后也提到了阿尔法狗即将迎战的中国棋手柯洁,他说,“柯洁也在网上和阿尔法狗对决过,比赛之后柯洁说人类已经研究围棋研究了几千年了,然而人工智能却告诉我们,我们甚至连其表皮都没揭开。异曲同工,柯洁提到了围棋的真理,我们在这里谈的是科学的真理。”世界围棋冠军柯洁即将迎战阿尔法狗。澎湃新闻现场聆听了AlphaGo(阿尔法狗)之父在剑桥大学历时45分钟的演讲,干货满满,请不要漏掉任何一个细节:非常感谢大家今天能够到场,今天,我将谈谈人工智能,以及DeepMind近期在做些什么,我把这场报告命名为“超越人类认知的极限”,我希望到了报告结束的时候,大家都清晰了解我想传达的思想。1.你真的知道什么是人工智能吗?对于不知道DeepMind公司的朋友,我做个简单介绍,我们是在2010年于伦敦成立了这家公司,在2014年我们被谷歌收购,希望借此加快我们人工智能技术的脚步。我们的使命是什么呢?我们的首要使命便是解决人工智能问题;一旦这个问题解决了,理论上任何问题都可以被解决。这就是我们的两大使命了,听起来可能有点狡猾,但是我们真的相信,如果人工智能最基本的问题都解决了的话,没有什么问题是困难的。那么我们准备怎样实现这个目标呢?DeepMind现在在努力制造世界上第一台通用学习机,大体上学习可以分为两类:一种就是直接从输入和经验中学习,没有既定的程序或者规则可循,系统需要从原始数据自己进行学习;第二种学习系统就是通用学习系统,指的是一种算法可以用于不同的任务和领域,甚至是一些从未见过的全新领域。大家肯定会问,系统是怎么做到这一点的?其实,人脑就是一个非常明显的例子,这是可能的,关键在于如何通过大量的数据资源,寻找到最合适的解决方式和算法。我们把这种系统叫做通用人工智能,来区别于如今我们当前大部分人在用的仅在某一领域发挥特长的狭义人工智能,这种狭义人工智能在过去的40-50年非常流行。1997年5月,IBM与世界国际象棋冠军加里·卡斯帕罗夫对决。IBM 发明的深蓝系统(Deep Blue)就是一个很好的狭义人工智能的例子,他在上世纪90年代末期曾打败了国际象棋冠军加里·卡斯帕罗夫(Gary Kasporov) 。如今,我们到了人工智能的新的转折点,我们有着更加先进、更加匹配的技术。2.如何让机器听从人类的命令?大家可能想问机器是如何听从人类的命令的,其实并不是机器或者算法本身,而是一群聪明的编程者智慧的结晶。他们与每一位国际象棋大师对话,汲取他们的经验,把其转化成代码和规则,组建了人类最强的象棋大师团队。但是这样的系统仅限于象棋,不能用于其他游戏。对于新的游戏,你需要重新开始编程。在某种程度上,这些技术仍然不够完美,并不是传统意义上的完全人工智能,其中所缺失的就是普适性和学习性。我们想通过“增强学习”来解决这一难题。在这里我解释一下增强学习,我相信很多人都了解这个算法。首先,想像一下有一个主体,在AI领域我们称我们的人工智能系统为主体,它需要了解自己所处的环境,并尽力找出自己要达到的目的。这里的环境可以指真实事件,可以是机器人,也可以是虚拟世界,比如游戏环境;主体通过两种方式与周围环境接触;它先通过观察熟悉环境,我们起初通过视觉,也可以通过听觉、触觉等,我们也在发展多感觉的系统;第二个任务,就是在此基础上,建模并找出最佳选择。这可能涉及到对未来的预期,想像,以及假设检验。这个主体经常处在真实环境中,当时间节点到了的时候,系统需要输出当前找到的最佳方案。这个方案可能或多或少会改变所处环境,从而进一步驱动观察的结果,并反馈给主体。简单来说,这就是增强学习的原则,示意图虽然简单,但是其中却涉及了极其复杂的算法和原理。如果我们能够解决大部分问题,我们就能够搭建普适人工智能。这是因为两个主要原因:首先,从数学角度来讲,我的合伙人,一名博士,他搭建了一个系统叫‘AI-XI’,用这个模型,他证明了在计算机硬件条件和时间无限的情况下,搭建一个普适人工智能,需要的信息。另外,从生物角度来讲,动物和人类等,人类的大脑是多巴胺控制的,它在执行增强学习的行为。因此,不论是从数学的角度,还是生物的角度,增强学习是一个有效的解决人工智能问题的工具。3.为什么围棋是人工智能难解之谜?接下来,我要主要讲讲我们最近的技术,那就是去年诞生的阿尔法狗;希望在座的大家了解这个游戏,并尝试玩玩,这是个非常棒的游戏。围棋使用方形格状棋盘及黑白二色圆形棋子进行对弈,棋盘上有纵横各19条直线将棋盘分成361个交叉点,棋子走在交叉点上,双方交替行棋,以围地多者为胜。围棋规则没有多复杂,我可以在五分钟之内教给大家。这张图展示的就是一局已结束,整个棋盘基本布满棋子,然后数一下你的棋子圈出的空间以及对方棋子圈出的空间,谁的空间大,谁就获胜。在图示的这场势均力敌的比赛中,白棋一格之差险胜。其实,了解这个游戏的最终目的非常难,因为它并不像象棋那样,有着直接明确的目标,在围棋里,完全是凭直觉的,甚至连如何决定游戏结束对于初学者来说,都很难。围棋是个历史悠久的游戏,有着3000多年的历史,起源于中国,在亚洲,围棋有着很深的文化意义。孔子还曾指出,围棋是每一个真正的学者都应该掌握的四大技能之一(琴棋书画),所以在亚洲围棋是种艺术,专家们都会玩。如今,这个游戏更加流行,有4000万人在玩围棋,超过2000多个顶级专家,如果你在4-5岁的时候就展示了围棋的天赋,这些小孩将会被选中,并进入特殊的专业围棋学校,在那里,学生从6岁起,每天花12个小时学习围棋,一周七天,天天如此。直到你成为这个领域的专家,才可以离开学校毕业。这些专家基本是投入人生全部的精力,去揣摩学习掌握这门技巧,我认为围棋也许是最优雅的一种游戏了。像我说的那样,这个游戏只有两个非常简单的规则,而其复杂性却是难以想象的,一共有10170 (10的170次方) 种可能性,这个数字比整个宇宙中的原子数次方)都多的去了,是没有办法穷举出围棋所有的可能结果的。我们需要一种更加聪明的方法。你也许会问为什么计算机进行围棋的游戏会如此困难,1997年,IBM的人工智能DeepBlue(深蓝)打败了当时的象棋世界冠军GarryKasparov,围棋一直是人工智能领域的难解之谜。我们能否做出一个算法来与世界围棋冠军竞争呢?要做到这一点,有两个大的挑战:一、搜索空间庞大(分支因数就有200),一个很好的例子,就是在围棋中,平均每一个棋子有两百个可能的位置,而象棋仅仅是20. 围棋的分支因数远大于象棋。二、比这个更难的是,几乎没有一个合适的评价函数来定义谁是赢家,赢了多少;这个评价函数对于该系统是至关重要的。而对于象棋来说,写一个评价函数是非常简单的,因为象棋不仅是个相对简单的游戏,而且是实体的,只用数一下双方的棋子,就能轻而易举得出结论了。你也可以通过其他指标来评价象棋,比如棋子移动性等。所有的这些在围棋里都是不可能的,并不是所有的部分都一样,甚至一个小小部分的变动,会完全变化格局,所以每一个小的棋子都对棋局有着至关重要的影响。最难的部分是,我称象棋为毁灭性的游戏,游戏开始的时候,所有的棋子都在棋盘上了,随着游戏的进行,棋子被对方吃掉,棋子数目不断减少,游戏也变得越来越简单。相反,围棋是个建设性的游戏,开始的时候,棋盘是空的,慢慢的下棋双方把棋盘填满。因此,如果你准备在中场判断一下当前形势,在象棋里,你只需看现在的棋盘,就能告诉你大致情况;在围棋里,你必须评估未来可能会发生什么,才能评估当前局势,所以相比较而言,围棋难得多。也有很多人试着将DeepBlue的技术应用在围棋上,但是结果并不理想,这些技术连一个专业的围棋手都打不赢,更别说世界冠军了。所以大家就要问了,连电脑操作起来都这么难,人类是怎样解决这个问题的?其实,人类是靠直觉的,而围棋一开始就是一个靠直觉而非计算的游戏。所以,如果你问一个象棋选手,为什么这步这样走,他会告诉你,这样走完之后,下一步和下下一步会怎样走,就可以达到什么样的目的。这样的计划,有时候也许不尽如人意,但是起码选手是有原因的。然而围棋就不同了,如果你去问世界级的大师,为什么走这一步,他们经常回答你直觉告诉他这么走,这是真的,他们是没法描述其中的原因的。我们通过用加强学习的方式来提高人工神经网络算法,希望能够解决这一问题。我们试图通过深度神经网络模仿人类的这种直觉行为,在这里,需要训练两个神经网络,一种是决策网络,我们从网上下载了成百万的业余围棋游戏,通过监督学习,我们让阿尔法狗模拟人类下围棋的行为;我们从棋盘上任意选择一个落子点,训练系统去预测下一步人类将作出的决定;系统的输入是在那个特殊位置最有可能发生的前五或者前十的位置移动;这样,你只需看那5-10种可能性,而不用分析所有的200种可能性了。一旦我们有了这个,我们对系统进行几百万次的训练,通过误差加强学习,对于赢了的情况,让系统意识到,下次出现类似的情形时,更有可能做相似的决定。相反,如果系统输了,那么下次再出现类似的情况,就不会选择这种走法。我们建立了自己的游戏数据库,通过百万次的游戏,对系统进行训练,得到第二种神经网络。选择不同的落子点,经过置信区间进行学习,选出能够赢的情况,这个几率介于0-1之间,0是根本不可能赢,1是百分之百赢。通过把这两个神经网络结合起来(决策网络和数值网络),我们可以大致预估出当前的情况。这两个神经网络树,通过蒙特卡洛算法,把这种本来不能解决的问题,变得可以解决。我们网罗了大部分的围棋下法,然后和欧洲的围棋冠军比赛,结果是阿尔法狗赢了,那是我们的第一次突破,而且相关算法还被发表在《自然》科学杂志。接下来,我们在韩国设立了100万美元的奖金,并在2016年3月,与世界围棋冠军李世石进行了对决。李世石先生是围棋界的传奇,在过去的10年里都被认为是最顶级的围棋专家。我们与他进行对决,发现他有非常多创新的玩法,有的时候阿尔法狗很难掌控。比赛开始之前,世界上每个人(包括他本人在内)都认为他一定会很轻松就打赢这五场比赛,但实际结果是我们的阿尔法狗以4:1获胜。围棋专家和人工智能领域的专家都称这具有划时代的意义。对于业界人员来说,之前根本没想到。4.棋局哪个关键区域被人类忽视了?这对于我们来说也是一生仅有一次的偶然事件。这场比赛,全世界28亿人在关注,35000多篇关于此的报道。整个韩国那一周都在围绕这个话题。真是一件非常美妙的事情。对于我们而言,重要的不是阿尔法狗赢了这个比赛,而是了解分析他是如何赢的,这个系统有多强的创新能力。阿尔法狗不仅仅只是模仿其他人类选手的下法,他在不断创新。在这里举个例子 ,这是第二局里的一个情况,第37步,这一步是我整个比赛中最喜欢的一步。在这里,黑棋代表阿尔法狗,他将棋子落在了图中三角标出的位置。为什么这步这么关键呢?为什么大家都被震惊到了。图左:第二局里,第37步,黑棋的落子位置 图右:之前貌似陷入困境的两个棋子。其实在围棋中有两条至关重要的分界线,从右数第三根线。如果在第三根线上移动棋子,意味着你将占领这个线右边的领域。而如果是在第四根线上落子,意味着你想向棋盘中部进军,潜在的,未来你会占棋盘上其他部分的领域,可能和你在第三根线上得到的领域相当。所以在过去的3000多年里,人们认为在第三根线上落子和第四根线上落子有着相同的重要性。但是在这场游戏中,大家看到在这第37步中,阿尔法狗落子在了第五条线,进军棋局的中部区域。与第四根线相比,这根线离中部区域更近。这可能意味着,在几千年里,人们低估了棋局中部区域的重要性。有趣的是,围棋就是一门艺术,是一种客观的艺术。我们坐在这里的每一个人,都可能因为心情好坏产生成千上百种的新想法,但并不意味着每一种想法都是好的。而阿尔法狗却是客观的,他的目标就是赢得游戏。5.阿尔法狗拿下李世石靠哪几个绝招?大家看到在当前的棋局下,左下角那两个用三角标出的棋子看起来好像陷入了困难,而15步之后,这两个棋子的力量扩散到了棋局中心,一直延续到棋盘的右边,使得这第37步恰恰落在这里,成为一个获胜的决定性因素。在这一步上阿尔法狗非常具有创新性。我本人是一个很业余的棋手,让我们看看一位世界级专家Michael Redmond对这一步的评价。 Michael是一位9段选手(围棋最高段),就像是功夫中的黑段一样,他说:“这是非常令人震惊的一步,就像是一个错误的决定。”在实际模拟中,Michael其实一开始把棋子放在了另外一个地方,根本没想到阿尔法狗会走这一步。像这样的创新,在这个比赛中,阿尔法狗还有许多。在这里,我特别感谢李世石先生,其实在我们赢了前三局的时候,他下去了。那是三场非常艰难的比赛,尤其是第一场。因为我们需要不断训练我们的算法,阿尔法狗之前打赢了欧洲冠军,经过这场比赛,我们知道了欧洲冠军和世界冠军的差别。理论上来讲,我们的系统也进步了。但是当你训练这个系统的时候,我们不知道有多少是过度拟合的,因此,在第一局比赛结束之前,系统是不知道自己的统计结果的。所以,其实第一局,我们非常紧张,因为如果第一局输了,很有可能我们的算法存在巨大漏洞,有可能会连输五局。但是如果我们第一局赢了,证明我们的加权系统是对的。不过,李世石先生在第四场的时候,回来了,也许压力缓解了许多,他做出了一步非常创新性的举动,我认为这是历史上的创新之举。这一步迷惑了阿尔法狗,使他的决策树进行了错误估计,一些中国的专家甚至称之为“黄金之举”。通过这个例子,我们可以看到多少的哲理蕴含于围棋中。这些顶级专家,用尽必生的精力,去找出这种黄金之举。其实,在这步里,阿尔法狗知道这是非常不寻常的一步,他当时估计李世石通过这步赢的可能性是0.007%,阿尔法狗之前没有见过这样的落子方式,在那2分钟里,他需要重新搜索决策计算。我刚刚已经提到过这个游戏的影响:28亿人观看,35000相关文章的媒体报道,在西方网售的围棋被一抢而空,我听说MIT(美国麻省理工学院)还有其他很多高校,许多人新加入了围棋社。我刚才谈到了直觉和创新,直觉是一种含蓄的表达,它是基于人类的经历和本能的一种思维形式,不需要精确计算。这一决策的准确性可以通过行为进行评判。在围棋里很简单,我们给系统输入棋子的位置,来评估其重要性。阿尔法狗就是在模拟人类这种直觉行为。创新,我认为就是在已有知识和经验的基础上,产生一种原始的,创新的观点。阿尔法狗很明显的示范了这两种能力。6.神秘棋手Master究竟是不是阿尔法狗?那么我们今天的主题是“超越人类认知的极限”,下一步应该是什么呢?从去年三月以来,我们一直在不断完善和改进阿尔法狗,大家肯定会问,既然我们已经是世界冠军了,还有什么可完善的? 其实,我们认为阿尔法狗还不是完美的,还需要做更多的研究。首先,我们想要继续研究刚才提到的和李世石的第四局的比赛,来填充知识的空白;这个问题其实已经被解决了,我们建立了一个新的阿尔法狗分系统,不同于主系统,这个分支系统是用来困惑主系统的。我们也优化了系统的行为,以前我们需要花至少3个月来训练系统,现在只需要一周时间。第二,我们需要理解阿尔法狗所采取的决定,并对其进行解释;阿尔法狗这样做的原因是什么,是否符合人类的想法等等;我们通过对比人类大脑对于不同落子位置的反应以及阿尔法狗对于棋子位置的反应,以期找到一些新的知识;本质上就是想让系统更专业。我们在网络上与世界顶级的专家对决,一开始我们使用了一个假名(Master),在连胜之后被大家猜出是阿尔法狗。这些都是顶级的专家,我们至今已赢了60位大师了。如果你做个简单的贝叶斯分析,你会发现阿尔法狗赢不同对手的难易也不一样。而且,阿尔法狗也在不断自我创新,比如说图中右下角这个棋子(圆圈标处),落在第二根线里,以往我们并不认为这是个有效的位置。实际上,韩国有的团队预约了这些游戏,想研究其中新的意义和信息。阿尔法狗自我创新,落在第二格线的棋子。柯洁,既是中国的围棋冠军,也是目前的世界围棋冠军,他才19岁。他也在网上和阿尔法狗对决过,比赛之后他说人类已经研究围棋研究了几千年了,然而人工智能却告诉我们,我们甚至连其表皮都没揭开。他也说人类和人工智能的联合将会开创一个新纪元,将共同发现围棋的真谛。异曲同工,柯洁提到了围棋的真理,我们在这里谈的是科学的真理。那么围棋的新纪元是否真的到来了呢?围棋史上这样的划时代事件曾经发生过两次,第一次是发生在1600年左右的日本,20世纪30-40年代的日本,日本一位当时非常杰出的围棋高手吴清源提出了一个全新的关于围棋的理论,将围棋提升到了一个全新的境界。大家说如今,阿尔法狗带来的是围棋界的第三次变革。7.为什么人工智能“下围棋”强于“下象棋”?我想解释一下,为什么人工智能在围棋界所作出的贡献,要远大于象棋界。如果我们看看当今的世界国际象棋冠军芒努斯·卡尔森,他其实和之前的世界冠军没什么大的区别,他们都很优秀,都很聪明。但为什么当人工智能出现的时候,他们可以远远超越人类?我认为其中的原因是,国际象棋更注重战术,而阿尔法狗更注重战略。如今世界顶级的国际象棋程序再不会犯技术性的错误,而在人类身上,不可能不犯错。第二,国际象棋有着巨大的数据库,如果棋盘上少于9个棋子的时候,通过数学算法就可以计算出谁胜谁败了。计算机通过成千上万的迭代算法,就可以计算出来了。因此,当棋盘上少于九个棋子的时候,下象棋时人类是没有办法获胜的。因此,国际象棋的算法已经近乎极致,我们没有办法再去提高它。然而围棋里的阿尔法狗,在不断创造新的想法,这些全新的想法,在和真人对决的时候,顶级的棋手也可以把其纳入到考虑的范畴,不断提高自己。就如欧洲围棋冠军樊麾(第一位与阿尔法狗对阵的人类职业棋手)所说的那样,在和阿尔法狗对决的过程中,机器人不断创新的下法,也让人类不断跳出自己的思维局限,不断提高自己。大家都知道,经过专业围棋学校里30多年的磨练,他们的很多思维已经固化,机器人的创新想法能为其带来意想不到的灵感。我真的相信如果人类和机器人结合在一起,能创造出许多不可思议的事情。我们的天性和真正的潜力会被真正释放出来。8.阿尔法狗不为了赢取比赛又是为了什么?就像是天文学家利用哈勃望远镜观察宇宙一样,利用阿尔法狗,围棋专家可以去探索他们的未知世界,探索围棋世界的奥秘。我们发明阿尔法狗,并不是为了赢取围棋比赛,我们是想为测试我们自己的人工智能算法搭建一个有效的平台,我们的最终目的是把这些算法应用到真实的世界中,为社会所服务。当今世界面临的一个巨大挑战就是过量的信息和复杂的系统,我们怎么才能找到其中的规律和结构,从疾病到气候,我们需要解决不同领域的问题。这些领域十分复杂,对于这些问题,即使是最聪明的人类也无法解决的。我认为人工智能是解决这些问题的一个潜在方式。在如今这个充斥着各种新技术的时代,人工智能必须在人类道德基准范围内被开发和利用。本来,技术是中性的,但是我们使用它的目的和使用它的范围,大大决定了其功能和性质,这必须是一个让人人受益的技术才行。我自己的理想是通过自己的努力,让人工智能科学家或者人工智能助理和医药助理成为可能,通过该技术,我们可以真正加速技术的更新和进步。(本文作者系英国剑桥大学神经学博士生,AlphaGo之父哈萨比斯在剑桥大学的校友,文章小标题系编者所注)
正文已结束,您可以按alt+4进行评论
责任编辑:kdshou
扫一扫,用手机看新闻!
用微信扫描还可以
分享至好友和朋友圈
土耳其女排联赛
男子世界杯
土耳其女排联赛
全国游泳锦标赛
上海大师赛
Copyright & 1998 - 2017 Tencent. All Rights Reserved24小时热文
今日体育热点
6秒后自动进入首页无所不能 健康点 运动家
分享到微信朋友圈
阿法狗们可能破解围棋吗
  黄文政|文
  人口与未来网站联合创始人
  日,谷歌公司旗下的深层意识(DeepMind)团队开发的围棋程序阿法狗(AlphaGo)再胜韩国棋手李世石九段,最终以4:1的成绩结束了双方的5局比赛。围棋被认为是人类最复杂的棋类游戏,而李世石是多次获得围棋世界冠军的顶级棋手。虽然李世石在第四局胜棋让人们看到了阿法狗的缺陷,但围棋界对阿法狗的态度早已经从赛前的轻视转变为刮目相看,并对阿法狗与职业围棋手的互动有更多的期待。那么阿法狗最终能否破解围棋呢?
  一、为何会赌全赢全输?
  在阿法狗与李世石比赛之前,我所在的一个微信群针对比赛结果有一个象征性的对赌,参与者可两边押注。到临近第一局比赛的3月9日11:38分,有64注押阿法狗赢,70注押李世石赢。我则押一注赌一方全赢或全输,另一群友压一注赌双方互有输赢。虽然4:1的比赛结果让我输掉了赌局,但解释为何押注赌全赢全输依然具有科普意义。
  如果双方势均力敌,任何一方赢一局的概率是0.5,且各局结果相互独立,那在5局中,一方全赢或全输的概率是0.0625(即1/(2*0.5^5))。如果一方赢率明显高于对方,那全赢全输的概率则会增加。假设各局结果还是相互独立,但双方赢率对比达到6.725:1(即(0.5^(1/5))/(1-0.5^(1/5)))时,全赢全输的概率会上升到50%。
  那么,在各局结果相互独立的假设下,双方水平差距要达到多大才能让全赢全输的概率上升到50%?从阿法狗团队在《自然》期刊的论文来看,他们使用Elo比分系统来衡量各种方法的对弈水平。Elo比分系统由物理学家Arpad Elo提出,用以衡量竞技游戏参与者相对水平。根据该计分标准,如果对弈者A比B的Elo比分高出d分,那在单局对弈中,A赢B的概率为1/(1+10^(d/400))。据此,如果阿法狗和李世石之间Elo比分相差达到332分,那双方赢率的对比将达到6.76:1,在各局结果相互独立时,这意味着一方全赢或全输的概率将超过50%。
  根据论文的介绍,阿法狗程序在对弈中同时使用价值网络和蒙特卡洛快速滚动所得到的Elo比分,比仅用价值网络提升714分,比仅用蒙特卡洛快速滚动提升474分。这意味着阿法狗的不同方法带来的Elo比分差距很容易就超过400分。在这种数量级的进化步伐下,阿法狗的Elo比分高于或低于李世石332分以上的可能性很大。与这种水平差别对应的是,双方赢率对比将超过6.725,而全赢全输的可能性超过50%。
  不过,竞技比赛的魅力在于,运气和奇迹总与理性形影不离。在阿法狗连赢三局,围棋界几乎一边倒地认为阿法狗将以5:0完胜的时候,李世石在第四局弈出神来之手,最终挫败阿法狗,被视为为人类尊严扳回一局。相信观看比赛实况的观众,都会对李世石的处境感同身受,在看到阿法狗中盘认输后,宽慰之心远胜于其他的感受。
  二、阿法狗与人类棋手的比较
  阿法狗在对弈中会不断判断己方的赢率。目前还未看到谷歌公司公布每局对弈时赢率估算随棋步的变化曲线,但脸书公司的智能围棋黑暗森林(DarkForest)团队却公布了他们的系统针对前两局得出的赢率估算曲线。不过,在我所看到的图表中,黑白各方的赢率曲线仅连接了己方每步赢率的估值,而没有把对方棋步所对应的赢率画在己方赢率曲线上,使得读者很难直观判断赢率的变化到底是自己还是对方棋步导致的。不过,黑暗森林的图表画出了双方的赢率曲线,据此可以重构任何一方赢率随双方棋步变化的曲线。
  在前两局赢率大幅变化的棋步前后,重构上述阿法狗针对双方每步的赢率曲线后,可以发现阿法狗赢率的大幅上升都发生是在李世石的棋步。如果黑暗森林的赢率估算可靠,这意味着前两局阿法狗赢在李世石的失误上。比如,在第一局,阿法狗赢率的大幅上升出现在李世石弈出149和151手。如果黑暗森林的赢率估算接近于阿法狗的估算,那阿法狗的棋步没有大幅提升己方赢率,也说明阿法狗对自身赢率的判断稳定,即对形势的预判准确,没有随棋步大幅波动。
  从黑暗森林提供的前两局赢率估算来看,阿法狗的赢率有升有降,并且一度还低于李世石。由此可以预判李世石赢棋的可能性是存在的。此外,李世石的某些棋步导致阿法狗赢率显著下降,说明这些棋步的表现超出了阿法狗在前一步的判断。
  不过阿法狗对形势的判断未必总是准确。在第四局中,谷歌深层意识团队的主管Demis Hassabis在推特上提到,李世石表现优异,阿法狗在79手出现失误,但直到87手才认识到这个错误。围棋界普遍认为李世石这局赢在78手的妙招,包括古力在内的许多职业棋手之前都没有看到这步。可以说,这一步超越了阿法狗对围棋的认识。另外,阿法狗在某些局部细棋上也走出过明显的缓棋。
  尽管如此,阿法狗击败人类顶尖棋手已被围棋界所接受。阿法狗的学习和训练过程与人类相似,3000万的训练棋局以及数百万局的自我对弈相当于浓缩了人类围棋发展的历程。除了不受心理因素影响外,阿法狗的围棋经验和水平可能都达到甚至超越了人类顶尖棋手。因此,阿法狗的出现有可能帮助人类提升自身的围棋水平。尽管第四局的例子表明阿法狗对形势的判断也会有失误,但很多时候也可能超越了人类棋手目前的认识。特别是,阿法狗偶尔会走出一些不太符合当前棋理的棋步,这些棋步最终证明是好棋;如果阿法狗对赢率的判断又没有随这些棋步大幅下降,那说明阿法狗并不认为这是自己的失误。这些棋步值得职业棋手深究。
  尽管人类棋手可以从阿法狗们那里学到新的棋艺和棋理,但随着人工智能的发展,类似于阿法狗的各种围棋程序的棋力将快速进步。除非人工智能领域失去对围棋的兴趣,否则,未来阿法狗们领先人类棋手的幅度应该会与日俱增。
  三、围棋的可破解性
  我在《》一文中提到,任何一种像围棋这样信息完全、确定性、两方对弈的游戏都是可破解的。这个结论在1913年被德国数学家Zermelo证明,前文中也给出了另一种思路的简要证明。所谓可破解是指,其中一方拥有一种策略可确保自己赢棋或和棋。为叙述方便,以下讨论排除了和棋,并把确保自己一方赢棋的策略称为完美策略。值得一提的是,完美策略不一定是唯一的。
  一个对弈策略是指一种下法,严格来说就是围棋局面到下子后局面的映射。围棋总策略数的上限是(3^(19*19))*(19*19),其中3对应于一个棋位的黑子、白子、空白3种选择,而19*19是棋位数目,所以(3^(19*19))是局面的数量上限,而对每个局面来说,可以选择的棋步数量的上限是19*19。如果对每个给定局面,策略的下一个棋步是确定的,称此策略为确定性策略。
  如果以B、W分别表示黑方、白方所有可能的围棋策略数量, 那可以给定黑方贴目数下,黑白两方对弈的结果用一个B*W的对弈矩阵来表达,矩阵每个元素代表相应黑白策略对弈的胜负,其中1 = 黑胜,0 = 白胜。对矩阵每行值取平均得到的B个值,是各个黑方策略的赢率,将1减去对矩阵每列值的平均得到的Mw个值,则是各个白方策略的赢率。完美策略是指,赢率为1的黑方策略和赢率为1的白方策略。Zermelo定理意味着,在给定规则和贴目数下,黑方或者白方有一方且只有一方拥有完美策略。
  增加黑方贴目数,会让对弈矩阵的胜负值单调非增。即,贴目数增加1,每个元素的值将维持1、维持0或者从1变为0,但不可能从0变成1;每个黑方策略的赢率会不变或者下降,而每个白方策略的赢率则会不变或者上升。当黑棋贴目数为0时,黑方应该拥有完美策略,但当贴目数足够大时,白方将拥有完美策略。随着贴目数从0开始逐一增加,拥有完美策略的一方将从黑方变成白方。这种完美策略所在方反转时的相邻两个贴目数的中间值则是理论上的合理贴目数。贴目数低于合理贴目数,黑方拥有完美策略,贴目数高于合理贴目数,白方拥有完美策略。
  由于围棋的可能策略数量,远超过计算机用类似于穷举法来搜索的可能,任何搜索完美策略的可行方法都是基于对策略空间的抽样,而一次围棋对弈可以看成是在在上述对弈矩阵观测一个输赢值。这也使得理论上可破解的围棋在现实中可能永远无法破解。为区别见,把上述想象中的完整对弈矩阵所对应的双方各种策略的赢率称为理论赢率,而实际对弈中的赢率则可被视为对这个理论赢率的估算。值得一提的是,前面提到的策略是指从开局到结局的下法,但策略的概念也可以扩展到从任何一个中间局面开始到结局的下法,而相应的对弈矩阵和理论赢率等概念也可以此类推。
  给定一个确定性策略,可以让这个策略与对方不同策略对弈,由自己赢棋的频率来估算理论赢率。如果自己的策略是完美的,那不管对方采取什么策略,最终赢率都是1。但现实中可能永远无法找到完美策略,所以棋步的选择需要依赖于对自己赢率的估算,而这种估算取决于如何抽样对方的策略。严格来说,选择自己策略时需要考虑的是针对对方不同策略的赢输情况,而根据抽样对方策略所估算的赢率其实是这种赢输情况的一个概括。
  阿法狗对不同棋步的赢率进行估算时,在蒙特卡洛树搜索之后,就是利用价值网络估算和蒙特卡洛快速滚动估算的加权平均来作为搜索树枝叶的赢率。使用价值网络相当于假设对手平均较强,而使用蒙特卡洛快速滚动则相当于假设对手平均水平一般。 阿法狗对两种估算各分配0.5的权重,其实是一种比较随性的做法,但却在实战中大幅提升了阿法狗的棋力。这说明如何表达赢率,或在估算时如何抽样对方策略上还存在巨大的改进空间。比如,到底应该假设对方是最强的对手而下出保守的棋步,还是假设对方是一般的高手而下出相对正常的棋步。不同偏好可以反映在如何整合不同抽样下的赢率估算。
  四、阿法狗们的未来演化
  已故日本著名围棋手藤泽秀行有句名言:棋道一百,我只知七。这句听起来像自谦的话可能正是围棋奥妙无穷的真实写照。虽然围棋在理论上存在完美策略,但比天文数字还要大几个天文数字数量级的棋局和策略数量让完全破解围棋没有现实可能。人类围棋棋艺的演化只是在巨大的策略空间中划过的一小片天地。当人们以为各种定式、棋理、棋风已然充分反映了围棋的千变万化时,总有先驱会开拓出新的天地,让围棋界耳目一新。这也是为什么围棋活动虽然兴盛了几千年,迄今依然方兴未艾。
  曾获北京市大学生围棋赛冠军的王烁表示,今天的职业围棋,是围棋史上最灿烂的时候,竞争最激烈的时候,也是职业棋手对竞争态度最坦荡最值得尊重的时候。他认为,在这个时候遇到阿法狗,虽然有些怅惋,但也是最合适的时候,在自己最强的时候,遇到最强的对手。与人类相比,阿法狗提升棋力的方式非常相似,但搜索空间更大,搜索速度更快。因此,阿法狗们的出现可能开创围棋的一个新时代。即便在现有框架下,阿法狗除了可以自我提升棋力外,还可以变更棋风。这至少可通过两个方式来实现。
  一是改变演化起点。目前阿法狗是通过有监督的方式学习3000万棋局来训练策略网络,通过训练后的策略网络自我对弈来提升策略网络的棋力,再基于自我对弈棋局来训练价值网络,并实现蒙特卡洛数搜索。从这个过程来看,阿法狗演化的起点是凝聚了人类围棋经验的3000万棋局。这相当于站在前人的肩膀上,好处是提升了演化效率,但却也可能窄化了演化路径的选择,有可能让阿法狗掉入一个局部次优的陷阱中。另一个做法是抛开3000万棋谱,把历史经验归零,靠对弈来自我演化。这样棋力提升速度可能会慢很多,但却可能演化出与人类很不一样的棋风。
  二是改变演化目标。目前阿法狗的演化目标是提升程序的赢率,这体现为以赢率作为价值网路的输出,并将赢率设为蒙特卡洛树搜索评价函数的主体。这样演化出来的对弈程序,只求赢棋,不求赢多目。这也是为何阿法狗在对弈中常常会无视局部的搏杀机会,而超然地另辟战场。如果把演化目标改为赢目数或者赢目数的一个增函数,那演化出来的对弈程序将更具有攻击性和冒险精神,下出来的棋可能会更为精彩,虽然赢率可能要被略微牺牲。更为重要的是,如前所述,给定己方策略时,赢率其实是与对方策略对弈的赢输情况的一个概括。把赢率从一维拓展到多维,或者改变抽样对方策略的方式都有可能改进阿法狗的棋力。
  从阿法狗团队发表在《自然》期刊的论文来看,阿法狗本质上可以做成一个通用程序。阿法狗的思路,特别是框架,甚至很多上层代码也许都可以原封不动地移植到其他的信息完全、确定性、两方对弈的棋类游戏;需要更新的只是底层游戏规则、策略网络和价值网络的设置、蒙特卡洛基本参数以及与上层框架接口等。这种通用性的设计思路,也使阿法狗团队日后能够更方便地把他们的成果应用到其他领域。
  回到围棋,可以把围棋程序的策略演化视为策略空间的路径。围棋的可破解性意味着,策略空间中存在一个完美策略的子空间,这个子空间中的所有策略如果被该赢的一方采用,那一定可以赢棋。但让围棋程序通过自我对弈或者与职业棋手和其他程序对弈,最多只可能验证围棋程序是否接近局域完美。要探索全域完美,也许只能让围棋程序从不同起始点开始演化,让演进过程更缓而不是更陡地收敛,并增加演化中的随机步伐,提升演化机制的遍历性。理论上,也许可以定义某种意义的遍历性,并据此对演化过程是否可能接近全域完美做出概率判断。但严格来说,逻辑上也许永远无法判断特定的围棋程序是否为完美策略,而这正是围棋永恒魅力之所在。■
责任编辑:张帆 | 版面编辑:刘潇
财新传媒版权所有。如需刊登转载请点击右侧按钮,提交相关信息。经确认即可刊登转载。
苹果客户端
安卓客户端
caixinenergy
caixin-enjoy
caixin-life
全站点击排行榜
全站评论排行榜
热词推荐:

我要回帖

更多关于 围棋的变化 的文章

 

随机推荐