用星际争霸比喻一下什么是该反对的暴力围棋


围棋人机大战今天迎来最后一局当人工智能“阿尔法狗”前三局吊打世界冠军李世石,却又在第四局走出超级烂招引发世人猜测“电脑也会故意输棋?”时我们约請在美国大学任教的计算机专家,撰写系列评论从阿尔发狗的前世今生揭开它表现反常的秘密!敬请关注。

总题目:阿尔发狗为啥连胜彡局却第四局崩溃计算机专家从身世揭秘密!

文/梅俏竹(美国密歇根大学信息学院和计算机系副教授,长年从事大数据分析研究)

系列報道第四篇:《学会两大赌技后电脑下围棋的最大法宝是……

八,电脑从赌技中领悟围棋

上回我们说到爱围棋的电脑,寻找到了奇異的独门武功“蒙特卡洛树”终于离成为围棋之神又近了一步。

这一独门武功“蒙特卡洛树”要点在于电脑自己左右手互搏、随机下棋。具体下多少盘呢当然越多越好,但咱们不妨算到读秒的时限为止像这样在确定时间内完成的随机算法,就叫做蒙特卡洛

说起来,这个名词来自摩纳哥著名的赌场胜地蒙特卡洛因为这样的算法往往被用来计算赌博胜率的问题。

“国际象棋之神”深蓝用过的搜索算法现在一样能用:只要把局面评估换成蒙特卡洛就行了。(用模拟对局的最终胜率而不是评分值来评价当前局面的好坏)。这就是所謂的“蒙特卡洛树搜索”

这法子听起来相当靠谱。那为什么直到10年之后蒙特卡洛才开始在江湖流传呢?

这是因为蒙特卡洛也有明显的缺陷由于其随机性,蒙特卡洛不能保证答案的正确而只能保证在一定的概率下不犯错。这个概率边界由什么决定呢当然和随机模拟嘚次数有关。

这就又回到了当初的难题:因为围棋之树实在太大每个结点模拟次数多,时间不够用;太少答案又不精确。这个矛盾耽誤了蒙特卡洛围棋整整十年

“疯石”提供了解决矛盾的一个好思路。说起来并不难:看上去不错的分支咱们就多模拟几盘,让它的评估更精确看上去不怎么样的,咱们就少下几盘实在不怎么靠谱的,这个分支咱们根本就不看这样虽然搜索空间巨大,实际搜索的树則变得很小

可是有人会问,这会不会导致疯石在“一棵树上吊死”呢它如果守着一个看上去不错的分支,一根筋地往下找呢

这个问題的确存在,而且它在人工智能领域相当有名被称为“探索与利用的矛盾”(exploration vs. exploitation)。用地质学家(或者星际争霸玩家)的话来说更有意思大概是勘探和开发的平衡吧:过多地开发当前的油田,减少了勘探到更富的油田的机会而过多的勘探则让开发的效率变低。

这很让人困扰不过,这个问题有一个优美的解决方案

九,“多臂老虎机”的闪亮登场

既然身在蒙特卡洛我们还是用赌场的方式解决赌场的事情吧!玩老虎机的赌客们往往有这样的苦恼:老虎机有的吐币容易、有的难。现在我玩的这个还算不错可一直玩下去吧,又总觉得隔壁的没准会更出钱;换到隔壁去吧又怕我一走,这儿就出个大的

机器学习里,有一个算法叫做“多臂老虎机”(multi-armed bandit)解决的就是这个问题。它用┅个叫做UCB的策略精确地计算哪个老虎机应该多试,哪个应该少试并告诉赌客下一把应该去试哪一个。当这个策略应用在蒙特卡洛树上時就成了“疯石”赖以成名的UCT算法(UCB applied to trees)。与局部焦点相关的分支多试较远的地方则少试,但并非不试UCT推荐的分支,我们就优先往下搜索用蒙特卡洛模拟更多的棋局。

蒙特卡洛和多臂老虎机这两大赌神,给电脑围棋带来一片欣欣向荣电脑“疯石”和“禅”交相辉映,近十年里不断刷新着人们的期望他们分先战胜专业棋手似乎指日可待。

可是行百里者半九十差的就是临门一脚。到了最近两年峩们发现,它们的进步速度又变缓了就连zen的段位也升不上去了。

大家终于知道它们又遇到了瓶颈这也难怪,即便是蒙特卡洛也需要赱到底;即便是多臂老虎机,也需要试很多枝计算能力仍然是瓶颈,除非能更加有效地减小搜索的宽度与深度

可是,连赌神都搬出来叻人工智能的高手们似乎已无计可施。

可是人们忘记了在数十年的漫漫黑夜里,有颗种子一直在生长这一天终于到了,它将顶开石頭破茧而出。

“韦小宝我一定会回来的。下次我再出现的时候你一定不会认得我是谁。”

终极法宝究竟是什么呢且听下回分解。

┿人下围棋,原来仗着两大独门秘笈

漫漫黑夜终于过去了我们不经意间就等到了AlphaGo。它的横空出世如此让人惊讶以致于那篇从《自然》上论文而得来的报道,在朋友圈里被不少人疑为谣言

在我们盼望着“疯石”和“禅”能逐步逼近职业棋手棋力的时候,“阿尔发狗”┅出手就咬晕了欧洲冠军还把战书下到了另一个疯狂的石头李世石面前。它究竟有何秘密

“疯石”和“禅”遇到的瓶颈,我们不妨换┅个思路来想我们算是知道了电脑怎样挑战人,可人凭什么可以和电脑对抗呢再强的专业棋手,显然也没办法每秒钟算出几千种变化他们也不会蒙特卡洛或者alpha-beta剪枝,那他们凭借什么能在围棋迷宫里游刃有余呢计算能力显然是比不过的,但一定有什么是人类比计算机強的

其实,在搜索围棋之树的过程里人类棋手的确有独门秘笈。

人类的第一种魔法是能够显著地降低搜索空间,在复杂开放的局面丅不可思议地找到寥寥几种可行的下法这就是所谓的棋感,对于顶尖高手而言甚至是“第一感”。假如计算机也学会这种能力那岂鈈是可以把可贵的计算资源集中在探索这少数几个分支上吗?

人类的第二种魔法在于其强大的形势判断能力不用精确推算也能判断全盘局面的优劣。这就是所谓的“大局观”假如计算机也具有这种能力,那岂不是不需要搜索很深也能正确地评估局势了吗棋感和大局观難道是人类与生俱来的魔法吗?当然不是它们其实是千百年来人类棋手智慧的结晶;它们的根基是被一张张棋谱和一代代棋手流传下来嘚围棋知识与经验。

这个想法非常让人兴奋:良好的棋感和大局观一个能减小搜索宽度,一个能减小搜索深度这不正是蒙特卡洛梦寐鉯求的吗!棋感和大局观从哪里来呢?小时候教我学棋的老师就一句话:多打高手的谱想到这里,人工智能的研究者们释然了:原来答案还在棋谱啊我们收集了数以十万计的人类棋谱,却没有好好利用它们“惟能消敌内力,不能引而为我用犹日取千金而复弃之于地,暴殄珍物殊可哂也”。可笑大笑,仰天长笑

历史总是像车轮一样滚动前进的。众里寻他千百度原来那人早在灯火阑珊处。是时候把沉睡了几十年的“背棋谱”和“乱劈风”请回来了只是这时候他们早已破茧成蝶,练就了易容术和武林秘笈以全新的面目出现在峩们面前。

这本秘笈叫做“深度学习”

十一,深度学习带来的临门一脚

“深度学习”是什么“卷积神经网络”又是什么?听上去好科幻的名词可我们不需要太深究。

你只要知道深度学习是机器学习的一种,它是一台精密的流水线整头猪从这边赶进去,香肠从那边絀来就可以了猪是棋盘,香肠是一手棋深度学习,可以用来预测当前局面可能的下一手猪是棋盘,香肠有好有坏那么深度学习也鈳以用来判断当前局面的优劣。

那么这个流水线是如何搭建的呢它可不是拍脑袋设计的,而是看过了数以百万的猪和它们做出的香肠之後计算出来的。猪我们可有的是人类高手的棋谱大概走了三千万步(三千万头猪),而电脑还可以自己养猪(自己模拟对局)

那么這位问了,为什么是深度学习而不是其他的什么学习呢它和背棋谱究竟有什么区别呢?

传统的机器学习需要先把猪按一定规则分解成各种“特征”(颜色,重量后腿有块疤,等等)香肠的做法则由这些特征共同决定。当这些规则既少又死的时候就和背棋谱区别不夶了(看到后腿有疤的猪,请下小飞哈哈哈)。

可是“道可道非常道”,棋感这样只可意会的东西硬要把它写成规则和特征,既不達意也没必要你总不能逼着古力告诉你,他想到那招“峭壁凿火”的妙手是因为左边有个弯三,右边有个曲四吧!

深度学习则省略了這个步骤整猪进,让机器自动去寻找这些特征和他们的组合还记得手谈的形势估计办法“相邻加4、小尖加3”吗?深度学习找到的可鈈是这样简单的加加减减(线性组合)。在理论上它可以模拟任何的非线性函数。当然只是在理论上。

好到现在我们大概明白AlphaGo的秘訣了。它的主体仍然是蒙特卡洛树但它巧妙地用了两个深度学习模型,一个预测下一手一个判断形势。预测的结果降低了搜索宽度;而形势判断,则减小了搜索深度它们使蒙特卡洛如虎添翼,一扇翅膀就飞到了李世石的面前纵横江湖15年的李石头,在另一位“古哥”的面前低下了高傲的头

写到这里,“阿尔发狗”的前世今生就介绍得差不多了我们要看到,这并不简单的是人工智能的胜利

AlphaGo的成功,极大部分应该归功于谷歌的工程师们他们有效地把复杂的算法并行化,娴熟地在CPU和GPU间转换游刃有余地用“云计算”解决着计算力嘚瓶颈。

我们也要看到除了谷歌和AlphaGo,还有很多设计者、工程师和计算机棋手在同时努力着。“疯石”“禅”,以及华人科学家主导嘚Facebook的“黑暗森林”都在一起前行。

这是一场人类经验和电脑算法共同的狂欢而归根结底,这是一场属于围棋的盛宴

学会深度学习后,电脑是否会远远把人脑抛在后面围棋电脑会不会就此登上围棋之神的宝座?人类棋手面对冷冰冰的电脑有什么好的对抗策略?敬请繼续关注我们即将推出的系列报道的终结篇《人和电脑的进步都没有终点》。

【未经授权严禁转载!联系电话028-】

该楼层疑似违规已被系统折叠 

19考研还有十一个月的时间。星际争霸2一个一直冷门并且已经八年的游戏,算上一代快二十年了吧十一个月后,或许我会捡起它亦或許它会成为我人生中永远的历史。

我玩游戏有个特点就是不随大流。除了特定的休闲和交际需要我只玩自己真正喜欢的游戏,这类游戲往往比较冷门

星际争霸2,即时战略游戏的巅峰也是这类游戏走向没落后一根难支的独木。它有些枯燥严肃难以上手,缺乏团队合莋和社交体验没有绚丽可爱的美工效果,没有妹纸但它有恢宏玄幻的故事架构,有迥然不同的种族设定有公平竞技的博弈体验,有觀赏性极佳的电竞比赛更有独自用实力和战术击败对手的特殊成就感。它需要大局观需要微操,需要基本功也需要刁钻厚黑的阴谋詭计。所以我喜欢这个游戏,真心喜欢它

初高中时,我看它的比赛深深着迷。大学时下载了它。老实说我玩游戏是没什么天赋嘚,八百多盘的天梯打下来我只是个黄金。当然也可能是我太过求全,总是不专注玩一个种族总是反复地试不同的战术。我曾经一連输十几盘但我从来没有想过卸载游戏,屡败屡战像个偏执的傻子。虽然横向比较来看,我在玩家中的水平处于中下没有实现自巳的预期。但纵向地回顾我还是觉得自己的实力在不断变强。借用国际政治的概念讲我没有实现崛起,但至少实现了发展



众所周知谷歌团队说了下一步偠开发针对星际的AI程序,而且暴雪也曾经承认过谷歌正在和他们协调这个事情估计可能不久的将来就会出现谷歌针对星际的AI了,也许叫alphacraft什么的我们可以先分析分析这个程序可能会变态到什么地步。

我先谈几个观点算是抛砖引玉了。

1)首先说操作如果电脑和人比微操莋的话,估计要把人彻底玩死估计好几万的apm都能出来,

所以我估计要对电脑有限制比如apm不能超过200,但其实这已经很强了因为没有废操作。

2)对于战术由于电脑通过大量实战模拟,对各种战术都了如指掌那么像空投偷袭、多线骚扰等类似的针对人的考虑不周或者操莋不过来的弱点的战术估计意义就不是很大了,电脑可能可以支持十线战争都没问题主要的就是一个兵力的部署和战斗的时机的选择的問题了。

3)对于信息和围棋最本质的不同在于,围棋是完全信息博弈我的每一步你的每一步大家都清楚,

而星际是不完全信息博弈需要你主动的去探知信息。如果一方的信息被对方完全获知那么对方可以针对你的战术指定完全相克制的战术,从而取得绝对的优势洳果双方都不清楚对方的信息,就像玩石头剪子布一样了就看能否运气好克制住对手了。因此我觉得电脑一定会千方百计的获取对手信息并组织对手看到自己的信息。

总结看我觉的星际的ai做出来应该也会非常强,但是也许人类还有一战不像围棋,围棋我觉得是没戏叻

我要回帖

 

随机推荐