什么样的围棋人工智能 职业击败了职业围棋手

人工智能首次击败围棋专业选手 3月挑战顶级棋手
来源:参考消息网
原标题:人工智能首次击败围棋专业选手 3月挑战顶级棋手
  参考消息网1月28日报道 日媒称,英国《自然》杂志27日发文称,美国谷歌公司旗下的人工智能(AI)开发商“DeepMind”(位于英国)研发的围棋电脑软件“AlphaGo”(阿尔法围棋)打败了职业棋手,开创全球先河。
  据日本共同社1月27日报道,围棋下法复杂,一般认为围棋的对弈软件开发比国际象棋和日本将棋更难,此次凭借人工智能新技术大幅提高了判断力。开发人员等召开记者会时称“正因为规则单纯才很难做,可应用于疾病图像的诊断等需要判断情况的场合”。
  与“AlphaGo”一较高下的棋手是2013年至2015年的欧洲围棋冠军、生于中国的樊麾。2015年10月,双方以正式比赛中使用的十九路棋盘进行了无让子的5局较量,“AlphaGo”赢得满堂红。
  今年3月,“AlphaGo”将挑战全球顶级的韩国九段棋手李世h,奖金是100万美金。李世h表示:“(人工智能)厉害得让人吃惊,听说一直在进化,不过我有信心取胜。”
  进入21世纪后,围棋软件研发出了模拟算出未来步骤,选择胜率高的一手棋的手法,水平堪比业余段位棋手。然而,由于博弈的局面根据棋盘大小不同,一般认为国际象棋为10的123乘方,而围棋则有10的360乘方以上。这导致软件来不及列举出所有能赢的方案,导致不敌职业棋手。
  研究团队放弃了“蛮力穷举”的方式,而是结合学习大量数据提高判断能力的人工智能新技术“深层学习”加以开发。
  “AlphaGo”会吸收职业棋手的摆子画面等信息,记住可以获胜的方法,通过自己与自己对弈学习取胜之道。
  “AlphaGo”还与其他几个种类的围棋软件展开切磋,495局比赛中仅败阵一局,优势十分明显。
(责任编辑:郝龙 UN654)
&&&&&&</div
数字之道:
独家策划:
社区热帖推荐
以求新求变著称……[]
客服热线:86-10-
客服邮箱:人类要被人工智能打败了吗?
腾讯较真 | 丁阳
昨日,不少网友可能都被一条消息给“震住了”――“面对谷歌围棋AI,人类最后的智力骄傲即将崩塌”①。这则消息讲的是谷歌公司旗下团队研制的计算机程序“阿尔法围棋”首次在没有让子的情况下,战胜里人类职业围棋选手。这个事情是真的吗?如果是真的,能说是人类被电脑打败了吗?《较真》为你解读。
查证过程1、人工智能打败职业围棋选手确有其事这次“阿尔法围棋(Alpha Go)”打败人类职业围棋选手的新闻,来自国际知名的科学期刊《自然(Nature)》的最新一期封面论文,谷歌旗下的这支团队在论文中介绍了如何大幅度提高里人工智能围棋的水平。被“阿尔法围棋”5:0比分打败的这名职业棋手叫樊麾,是连续几年的欧洲冠军。有读者或许清楚欧洲围棋水平远不如东亚,但樊麾本人是来自中国的棋手,在中国取得了职业二段证书。虽然樊麾定段的年代比较早,但终究也是职业棋手,与现在活跃的顶尖高手李世石、柯洁等,最多也就让两子水平的差距。欧洲围棋冠军、职业二段樊麾所以,至少可以认为,“阿尔法围棋”的水平已经摸到了人类职业棋手的边了,如果能在接下来在今年三月的人机大战中战胜曾经统治棋坛的李世石九段,其意义就相当于当年IBM超级电脑“深蓝”战胜国际象棋世界冠军卡斯帕罗夫。按国内职业高手李戳蔚某醪脚卸希鞍⒍ㄎ濉痹谄迤字姓瓜值钠辶Γ按笤际嵌ゼ馄迨秩孟然蛉孟鹊固氖盗Γ胝绞と死嗷褂幸恍《尉嗬搿保馐侨ツ10月的水平,今年3月会有怎样的表现,非常值得期待。2、回顾电脑围棋的发展历史,“阿尔法围棋”的成就确实令人震惊棋类运动,通常都是“完全博弈”,即所有信息都在棋盘上呈现,胜负完全不取决于运气,被认为是智力竞赛的极佳载体。在围棋之前,人工智能早已打败几乎所有棋类领域的人类专家,最典型的如国际象棋――电脑程序已经几乎研究透所有的开局库、残局库,中局计算的深度也远超人类,更重要是几乎从不犯错,已经没有任何人类能打败程序。而来自东方的、具有数千年历史的围棋则不同,围棋被认为是“人类发明的最复杂也是最美的游戏”(谷歌团队就这个观点)。称围棋最复杂,是因为其变化非常之多――在国际象棋的任何一个回合,平均可能的走法有35种。但围棋的走法却能达到250种。而且,国际象棋或象棋的目标非常明确,就是“杀王”,每一个着法之后,对“杀王”有多少好处较易通过函数评估,而围棋是“地多者胜”,这个目标要相对抽象,导致估值函数非常不平滑,差一个子盘面就可能天翻地覆。人类高手可以轻易驾驭围棋,但程序却相当困难②。可以非常粗略地把电脑围棋的发展历史分为三个时期。在电脑围棋发展的早期,主要是通过“人类手把手教电脑”的方式,来提升电脑围棋的水准――人类告诉电脑在特定情况下有哪些招法,告诉电脑怎么评估一手棋的好坏,然而这种函数评估都是“静态”的,而且很不准确,非常不善于应对变化,一般只对处于棋局初期的局面有一定作用,当棋局进入激烈厮杀后的中后盘后,往往就乱下一气。早期围棋程序,是基于“特征识别”来对局面进行静态评估,这种方法成就有限在网站上面,有个记录人机围棋大战历史( Human-Computer Go Challenges)③的页面 ,从中可以看出电脑围棋程序挑战人类业余围棋高手乃至职业选手的艰苦历程。围棋人机对战最早从1986年就有记录,但一直发展到2005年,电脑程序还只能在被让15个子的情况下,与人类业余棋手苦苦抗衡。所以2008年的时候,聂卫平九段还认为“电脑围棋水平还停留在被人让二十多个子”。这足以说明早期围棋电脑程序实力还相当有限。不过重大的变化在年已经发生了,围棋程序普遍用上了一种叫“蒙特卡洛树搜索(MCTS)”的方法,来改进其算法的估值函数,这可以算作电脑围棋发展的第二个时期。“蒙特卡洛树搜索”是一种概率论的方法,通俗地来说,在一个特定的局面下,电脑大概有几个着点可以选择,怎么判断哪个着点最好?就是每个点都“试一下”,“试”的方式如下:选定一个着点后,用随机着法模拟完对局,模拟几千几万盘后,看胜率如何,胜率最高的着点就是最好的着点。使用这种方法改进算法后,电脑围棋的水平有里大幅度的进步,2007年,一个叫“MoGo”的程序在9路棋盘上打败了人类职业棋手。随后涌现的“Zen”、“Crazy Stone”等程序,慢慢达到了业余围棋好手的水平,与职业棋手的差距在四、五个子左右。然而这种方法有其极限,其实质是一种“穷举法”,但围棋的变化实在太多了,再先进的硬件也无法穷举完所有变化,电脑计算能力变强也无济于事。而且,在很多人工智能的研究者看来,就算以后超超级计算机能够用穷举法战胜人类,也不能说解决了人工智能。直到最近几个月,以“蒙特卡洛树搜索”为核心的围棋程序还与职业棋手有鸿沟般的差距。去年下半年的时候,大部分围棋程序面对人类高手(名字后面带"p"的,表示职业)仍有4个子以上的棋力差距,“阿尔法围棋”能在平等条件下(Even)横扫2p,令世人震惊这就是为什么“阿尔法围棋”的横空出世极具震撼性。据《自然》上的这篇论文,“阿尔法围棋”不仅5:0战胜了樊麾二段,还在对阵其他围棋程序中,取得了495局比赛中494次胜利的成绩(99.8%)④。甚至在“阿尔法围棋”让其他程序四个子的情况下,还取得了绝对优势。这可以说是电脑围棋发展历史的第三个时期,目前距离人类顶尖水准已经非常接近了,而其中关键,正在于电脑已经能够“真正地”向人类学习如何来下棋,这与国际象棋程序“靠计算能力打败人类”有着本质上的不同。3、“阿尔法围棋”取得如此成就的原因:机器学习谷歌旗下团队之所以能够取得如此的重大突破,并不是毫无预兆的,与同样正在攻关电脑围棋的Facebook团队一样,他们都应用了一种叫做“深度卷积神经网络”的技术。这是人工智能领域非常热门的一项技术,广泛用于图像和语音的智能识别方面。从广义的层面来说,“深度卷积神经网络”是“深度学习”的一个分支,而“深度学习”又是“机器学习”的一个分支。机器学习,指的是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法,是人工智能的热门领域⑤。这个说法听起来没有什么稀奇之处,然而,“深度学习”是一种模仿人类大脑神经元工作的技术,加上这一技术强调的是“自动”,所以深度学习会给人一种“活物”的感觉。在谷歌团队的论文里,多处用到了“训练”这个词――“阿尔法围棋”之所以这么厉害,就是因为团队用职业棋手的棋谱“训练”它,让它总结出职业高手下棋的招法和规律――用爱丁堡大学教授Amos Storkey的话来说,程序“并不是希望找出最优走法,而是学习人类的下棋风格,然后对人类棋手进行有效的复制。”⑥谷歌团队的论文也提到,“在与樊麾的比赛中,阿尔法围棋在评估位置方面要比深蓝与卡斯帕罗夫比赛时所评估的位置少几千倍”。在谷歌团队的论文中,提到“我们用19X19的图像来传递棋盘位置”,来“训练”深度神经网络⑦与初期的“人类手把手教电脑下围棋”相比,“自动学习”无疑是革命性的。据谷歌团队的说法,用这种方法做出的围棋程序水平,轻易就达到了最先进的蒙特卡洛树搜索算法的级别,两者再一结合,就达到了接近职业棋手的程度。4、这是否能说明人工智能已经可以打败人类?说不定会全方面来临电脑围棋真的战胜人类围棋高手了,到底有什么意义呢?能说明人类被人工智能打败了吗?很多人不以为然――“人工智能不也是人类创造出来的吗,即使人类下围棋下不过电脑了,那也不过是人类打败人类,怎么能说人类的智力骄傲崩塌了呢?”一个深度学习的典型过程:通过具象到抽象,机器能够自动提取出分析对象的特征,从而完成“学习”从某种意义上来说,这种说法不算错。但在很多“未来学家”眼里,这种“青出于蓝而胜于蓝”的景象,说不定是令人恐惧的。机器并不是通过“死算”,而是通过“自我学习”,在能够象征人类智慧的棋类项目上战胜人类,在其他一些以前看起来只能人类做到而机器人无法做到的领域――诸如自动驾驶、人工智能客服等等,智能机器人说不定都能胜于人类,这种现象说不定会全方面地来临。到时候普通的人类们该如何自处呢?虽然这种人工智能还不具备“自我意识”,与科幻电影中那些跟人类无异的机器人还相去甚远,但会让这个世界会发生怎样的改变,恐怕也已经很难想象了。《较真》栏目微信公众号已开通,欢迎扫描二维码或微信公号搜索“全民较真”,查看更多内容,提供疑似不实新闻,并与我们进行互动。
人工智能打败职业围棋选手确有其事,而且关键之处在于,人工智能并不仅仅是具有强大的计算能力,还能够通过“自动学习”的方式模仿人类的行动。人工智能的最新发展正展示着一个广阔而未知的未来。
①《》,果壳网&②《》,《科学世界》,2014③“”,④《》,微信公众号:新智元&⑤《》 ,吴怀宇⑥《》,微信公众号:机器之心⑦“”,《自然》,2016&
扫一扫,用手机看新闻!
用微信扫描还可以
分享至好友和朋友圈天极网用户登录
您现在的位置:
谷歌 AlphaGo人工智能击败人类围棋冠军Yesky天极新闻 15:00
 & 北京时间 1 月 28 日,Google DeepMind 宣布了在人工智能方面取得重大突破,他们名为 AlphaGo 的人工智能在没有任何让子的情况下以 5:0 完胜欧洲冠军、职业围棋二段樊麾。
  接下来的 3 月份,Google 还会让 AlphaGo 与世界冠军李世h对战,赢家将获得 Google 提供的 100 万美金。李世h是最近 10 年中获得世界第一头衔最多的棋手。
  AI 战胜围棋为什么比象棋难?
  在欧美传统里,棋类游戏被视为顶级人类智力试金石,人工智能挑战棋类大师的好戏也接连上演。
  1997 年,IBM 的深蓝在正常时限的比赛中首次击败了当时排名世界第一的棋手加里 ? 卡斯帕罗夫。2006 年,人类最后一次打败顶尖的国际象棋 AI。
  然而,围棋却一直被视为 AI 的强敌。国际象棋中,平均每回合有 35 种可能,一盘棋可以有 80 回合;而围棋每回合有 250 种可能,一盘棋可以长达 150 回合。同时,围棋有 3^361 种局面,而可观测到的宇宙,原子数量才 10^80。
  新智元的详解文章里写道,围棋难的地方在于它的估值函数非常不平滑,差一个子盘面就可能天翻地覆,同时状态空间大,也没有全局的结构。这两点加起来,迫使目前只能用穷举法并且因此进展缓慢。
  在之前围棋 AI 和人类选手的比赛中,人类选手都会让子,而且 AI 主要和业余段位的棋手比赛。而 AlphaGo 这次的对手樊麾则是是法国国家围棋队总教练,已经连续三年赢得欧洲围棋冠军的称号
  另外,在与其他围棋 AI 的比赛中,AlphaGo 总计 495 局中只输了一局,胜率是 99.8%。
  AlphaGo 是如何做到的?
  传统的人工智能方法是将所有可能的走法构建成一棵搜索树 ,但这种方法对于走法如此之多的围棋并不适用。AlphaGo 引入了 Google 和 DeepMind 一直专研的深度学习技术,将高级搜索树与深度神经网络结合在一起。
  深度学习是机器学习的一个分支。机器学习这个概念认为,对于待解问题,无需编写任何专门的程序代码,只需要输入数据,算法会在数据之上建立起它自己的逻辑。深度学习强调的是使用的模型,最流行的是被用在大规模图像识别任务中的卷积神经网络(Convolutional Neural Nets,CNN),简称 ConvNets。
  AlphaGo 运用到的深度神经网络是 Policy Network(策略网络)以及 Value Network(值网络)。
AlphaGo 以 5:0 完胜欧洲冠军、职业围棋二段樊麾
  据果壳网作者开明的文章,策略网络和值网络“它们的任务在于合作挑选出那些比较有前途的棋步,抛弃明显的差棋,从而将计算量控制在计算机可以完成的范围里,本质上和人类棋手所做的一样。”
  策略网络负责减少搜索的宽度――面对眼前的一盘棋,有些棋步是明显不该走的,比如不该随便送子给别人吃。这样 AI 就不用给每一步以同样的重视程度,可以重点分析那些有戏的棋着。
  值网络负责减少搜索的深度――AI 会一边推算一边判断局面,局面明显劣势的时候,就直接抛弃某些路线,不用一条道算到黑。
  更通俗的解释是,策略网络着眼于当下,选择下一步走法。值网络思考得更加长远,预测棋局的走向。
  DeepMind 用人类围棋高手的三千万步围棋走法训练 AI,这种方法称为监督学习(supervised learning),然后让 AI 和自己对弈,这个流程称之为强化学习(reinforcement learning)。
  征服围棋最重要的意义在于,AlphaGo 不仅是遵循人工规则的“专家”系统,它还通过“机器学习”自行掌握如何赢得围棋比赛。
  DeepMind 什么来头?
  DeepMind 是一间英国人工智能初创企业,主要业务是为游戏、电商等服务提供机器学习的智能算法。换句话说,DeepMind 是一家面向商用市场的技术提供商。
AlphaGo 以 5:0 完胜欧洲冠军、职业围棋二段樊麾
  创始人 Demis Hassabis(德米斯 ? 哈萨比斯)小时候是象棋神童,17 岁就达到了 A-level,比其编程销售过百万的模拟游戏“主题公园”的事迹还要早两年。
AlphaGo 以 5:0 完胜欧洲冠军、职业围棋二段樊麾
  以优异的成绩毕业于剑桥大学计算机系之后,Demis 创立了具有开创性意义的电子游戏公司 Elixir Studios,为全球出版商如 Vivendi Universal 制作了许多获奖游戏。
  拥有十年成功的技术创业公司经验后, Demis 重新回到校园,在伦敦大学完成认知神经科学博士学位,并在麻省理工和哈弗大学拿到博士后学位。
  2011 年,Demis Hassabis 联合?Shane Legg 以及 Mustafa Suleyman 一同创立了 DeepMind Technologies,专注于机器学习研究。
  2014 年 1 月 DeepMind 被 Google 收购,Demis Hassabis 领导 Google 在人工智能方面的全方位工作。
  在被 Google 收购后,DeepMind 一直保持低调。2015 年 11 月,DeepMind 发布了几篇关于利用人工智能算法打败?Atari 游戏的论文,获得了不错的反响。在和伦敦皇家学会的一次中,当与会者提到是否在进行围棋相关研究时,Demis Hassabis 就曾透露,我们现在还不能讲太多,但几个月后会有太惊喜。
  现在看来,这个大惊喜就是 AlphaGo 了。Demis Hassabis 描述道:
  围棋是人类发明的最复杂也是最美的游戏。通过战胜樊麾,我们的程序赢得了长期以来一项重大人工智能挑战的胜利。而这项技术在 Google 的首个用途将是开发更好的个人助理软件。这样的个人助理能够从用户在线行为中学习用户偏好,并对产品和事件作出更符合直觉的建议。
(作者:爱范儿责任编辑:周慧娴)
IT新闻微信公众平台
第一时间获取新鲜资讯
使用手机扫描左方二维码
您可能想看的内容
看过本文的人还看过
大家都在看
* 网友发言均非本站立场,本站不在评论栏推荐任何网店、经销商,谨防上当受骗!
天极网官方微信
你身边的科技媒体
最给力的互动都在这里
iPhone SE推出前,苹果还曾推出过Mac SE、iMac SE以…
不要再提中国的什么O2O,这个概念在欧洲已经被视为垃圾。O2O已死!谁…
索尼未来实验室在SXSW大会期间展示了一款可让任何屏幕变成触屏的投影仪…
全球流行的流媒体音乐播放应用Spotify已经宣布停止支持Window…
三星推出了一个名为Galaxy Continuity的功能,支持让平板…
天极网IT新闻汇:联发科宣布将于3月16日在深圳发布量产版Helio …
天极网IT新闻汇:苹果计划将于2017年初推出一款5.8英寸iPhon…
天极网IT新闻汇:在李世石结婚纪念日这个独特的日子里,他还是输掉了第三…
IDC预测,像微软SP4一样的Windows可拆卸式平板将轻松击败An…
天极网IT新闻汇:苹果确定将于太平洋时间3月21日10点举办2016春…
日前有报道称苹果正在准备推出一款采用5.8英寸OLED屏幕的iPhon…
天极网IT新闻汇:阿里巴巴斥资约20亿元投资彩票综合企业亚博科技,持股…
前两天用滴滴叫车,下车时打开手机准备付账,结果发现自己没花钱!这是什么…
在接受采访是,iPod之父Fadell爆料了当年开发初代iPhone原…
天极网IT新闻汇:微软将在月底上线Win10 Edge浏览器扩展程序功…
每日IT极热您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
Google人工智能击败欧洲围棋冠军, AlphaGo 究竟是怎么做到的?
编者按:本文由新智元原创翻译自Nature。如果觉得此文深奥,关于机器学习,还可看雷锋网早期文章:围棋一直被视为人工智能最难破解的游戏。就在今天,《Nature》杂志以封面论文的形式,介绍了 Google DeepMind 开发的人工智能程序 AlphaGo,它击败了欧洲围棋冠军樊麾,并将在 3 月和世界冠军李世乭对战!Google 特地为此准备了 100 万美元奖金。从国际象棋的经验看,1997 年人工智能第一次打败人类后,2006 年成为了人类在国际象棋的绝唱,自此之后人类没有战胜过最顶尖的人工智能国际象棋选手。在 AlphaGo 打败了欧洲围棋冠军后,世界冠军李世乭和 AlphaGo 的对弈,是否会成为人类在围棋领域的绝唱?Nature 封面论文:Mastering the game of Go with deep neural networks and tree search(通过深度和搜索树,学会围棋游戏)AlphaGo 给围棋带来了新方法,它背后主要的方法是 Value Networks(价值网络)和 Policy Networks(策略网络),其中 Value Networks 评估棋盘位置,Policy Networks 选择下棋步法。这些神经网络模型通过一种新的方法训练,结合人类专家比赛中学到的监督学习,以及在自己和自己下棋(Self-Play)中学到强化学习。这不需要任何前瞻式的 Lookahead Search,神经网络玩围棋游戏的能力,就达到了最先进的蒙特卡洛树搜索算法的级别(这种算法模拟了上千种随机自己和自己下棋的结果)。我们也引入了一种新搜索算法,这种算法将蒙特卡洛模拟和价值、策略网络结合起来。通过这种搜索算法,AlphaGo 在和其他围棋程序比赛的胜率达到了 99.8%,并以 5:0 的比分击败了人类欧洲围棋冠军樊麾。这是电脑程序第一次在全尺寸(19X19)的棋盘上击败了人类专业选手,这一成果过去认为至少需要 10 年才能实现。欧洲围棋冠军樊麾:2005 年樊麾被正式聘任为法国围棋队和少年围棋队的总教练,那一年的他才 24 岁。他是
和 2015 欧洲围棋赛冠军。通过将&Value Networks、Policy Networks&与树搜索结合起来,AlphaGo 达到了专业围棋水准,让我们看到了希望:在其他看起来无法完成的领域中,AI 也可以达到人类级别的表现!关于DeepMind 团队对围棋项目的介绍,可进入新智元查看。| 论文简介所有完全信息(perfect information)博弈都有一个最优值函数(optimal value function),它决定了在所有参与博弈的玩家都做出了完美表现的情况下,博弈的结果是什么:无论你在棋盘的哪个位置落子(或者说是状态s)。这些博弈游戏是可能通过在含有大约个bd可能行动序列(其中b是博弈的宽度,也就是在每个位置能够移动的步数,而d是博弈的深度)的搜索树(search tree)上反复计算最优值函数来解决的。在象棋(b≈35,d≈80)和围棋之类(b≈250,d≈150)的大型博弈游戏中,穷尽地搜索是不合适的,但是有效搜索空间是可以通过2种普遍规则得到降低的。首先,搜索的深度可能通过位置估计(position evaluation)来降低:在状态s时截取搜索树,将随后的子树部分(subtree)替换为根据状态s来预测结果的近似的值函数v(s)≈v*(s)。这种方法使程序在象棋、跳棋、翻转棋(Othello)的游戏中表现超越了人类,但人们认为它无法应用于围棋,因为围棋极其复杂。其次,搜索的宽度可能通过从策略概率p(a|&s)——一种在位置s时表示出所有可能的行动的概率分布——中抽样行动来降低。比如,蒙特卡洛法通过从策略概率p中为博弈游戏双方抽样长序列的行动来让搜索达到深度的极限、没有任何分支树。将这些模拟结果进行平均,能够提供有效的位置估计,让程序在西洋双陆棋(backgammon)和拼字棋(Scrabble)的游戏中展现出超越人类的表现,在围棋方面也能达到低级业余爱好者水平。围棋为何如此复杂?围棋有3361 种局面,而可观测到的宇宙,原子数量才1080。围棋难的地方在于它的估值函数非常不平滑,差一个子盘面就可能天翻地覆,同时状态空间大,也没有全局的结构。这两点加起来,迫使目前计算机只能用穷举法并且因此进展缓慢。但人能下得好,能在几百个选择中知道哪几个位置值得考虑,说明它的估值函数是有规律的。这些规律远远不是几条简单公式所能概括,但所需的信息量还是要比状态空间本身的数目要少得多(得多)。一句话,穷举状态并不是最终目标,就算以后超超级计算机能做到这一点,也不能说解决了人工智能。只有找到能学出规律的学习算法,才是解决问题的根本手段。By 田渊栋蒙特卡洛树搜索(MCTS)使用蒙特卡洛算法的模拟结果来估算一个搜索树中每一个状态(state)的值。随着进行了越来越多的模拟,搜索树会变得越来越庞大,而相关的值也会变得越来越精确。通过选取值更高的子树,用于选择行动的策略概率在搜索的过程中会一直随着时间而有所改进。目前最强大的围棋程序都是基于蒙特卡洛树搜索的,通过配置经训练后用于预测人类棋手行动的策略概率进行增强。这些策略概率用于将搜索范围缩小到一组概率很高的行动、以及在模拟中抽样行动。这种方法已经取得了高级业余爱好者水平的表现。然而,先前的工作仅局限于基于输入特征(input features)的线性组合的粗浅策略概率和值函数。近期,深度卷积神经网络在视觉领域有很多前所未有的表现:例如,图像分类、脸部识别、玩雅特丽游戏等。他们使用很多层神经元,每个被安排在交叠的区块(Tiles)中来构建越来越抽象和本地化的图片表示。我们在围棋游戏中采用了一个相似的构架。我们用19X19的图像来传递棋盘位置,使用卷积层来构建位置的表示。我们使用这些神经网络来减少搜索树的有效深度和宽度(breadth):使用一个Value Networks(价值网络)来估算位置,使用Policy Network(策略网络)来对动作进行抽样。我们使用由若干机器学习阶段(Stages)构成的流水线来训练神经网络(例1)。我们直接使用人类专家的步法来训练监督学习策略网络pσ。这为快速而有效的学习更新(Learning Updates)提供了高质量的梯度和即时反馈。与之前的工作相似,我们也训练了一个快速策略网络pπ,它可以快速地在模拟中对动作进行抽样。接下来,我们训练了强化学习(RL)策略网络pρ,这个网络通过优化“自己对抗自己”的最终结果来改善监督学习策略网络。这将策略调整到赢棋这一正确目标上,而非让预测精确率最大。最后,我们训练了价值网络vθ,它可以预测出RL策略网络通过模拟“自己对抗自己”而得出的策略中哪种是最佳策略。我们的程序AlphaGo高效地结合将策略和价值网络与蒙特卡洛树搜索结合起来。| 实现过程&为了评估AlphaGo,我们在诸多AlphaGo变体和一些其他围棋程序中进行了内部比赛,这其中包括了最强大的商业程序Crazy Stone和Zen,还有最大的开源程序Pachi和Fuego。所有这些程序都是基于高性能MCTS算法。此外,比赛也包含了开源程序GnuGo,这个程序使用了在MCTS之前出现的最先进的方法。规定所有程序每次落子有5秒的计算时间。比赛的结果表明单机AlphaGo领先任何之前的围棋程序很多段位,取得了495局比赛中494次胜利的成绩(99.8%)。为了给AlphaGo提出更大的挑战,我们也让AlphaGo让四子(让子,即对手自由落子)来比赛;AlphaGo让子竞赛中对阵Crazy Stone、Zen和Pachi时分别取得了77%、86%和99%的成绩。分布式AlphaGo明显更强大,对阵单机AlphaGo取得77%的成绩,完胜其他程序。详解:AlphaGo 如何在对弈中选择步法黑色棋子代表AlphaGo正处于下棋状态,对于下面的每一个统计,橙色圆圈代表的是最大值所处的位置。红色圆圈表示AlphaGo选择的步法;白方格表示樊麾作出的回应;樊麾赛后评论说:他特别欣赏AlphaGo预测的(标记为1)的步法。AlphaGo与樊麾的比赛结果以编号形式展示了AlphaGo和樊麾进行围棋比赛时各自的落子顺序。棋盘下方成对放置的棋子表示了相同交叉点处的重复落子。每对中的第一个棋子上的数字表示了何时发生重复落子,而落子位置由第二个棋子上的数字决定。(见补充信息 Supplementary Information)第一盘:AlphaGo&以 2 目半获胜第二盘:AlphaGo 中盘胜第三盘:AlphaGo 中盘胜第四盘:AlphaGo 中盘胜第五盘:AlphaGo 中盘胜最终,我们评估了分布式AlphaGo与樊麾的比赛,他是专业2段位选手,年欧洲围棋赛冠军。在日到9日,AlphaGo和樊麾正式比赛了5局。AlphaGo全部获胜。这是第一次一个电脑围棋程序,在没有让子、全尺寸(19X19)的情况下击败人类专业选手,这一成果过去认为至少需要 10 年才能实现。| 讨论在我们的工作中,我们开发了围棋程序,它将深度神经网络和树搜索结合起来。这个程序可以达到最强的人类选手的表现,因此完成了一个人工智能“伟大挑战”。我们也为围棋首创了高效步法选择和位置评估函数,这是通过具有创新性地将监督和强化学习两种方法结合起来从而训练深度神经网络。我们也引入了一个新搜索算法,这一算法成功的整合了神经网络评估和蒙特卡洛树模拟算法。我们的程序AlphaGo在高性能树搜索引擎中从一定规模上将这些成分整合在一起。在和樊麾的比赛中,AlphaGo在评估位置方面要比深蓝与Kasparov4比赛时所评估的位置少几千倍,这是由于我们使用了策略网络更智能地选择那些位置,还使用了价值网络更精确地评估它们,而价值网络更接近人类的下棋方式。另外,深蓝依靠手工设计评估方程,而AlphaGo的神经网络是直接通过纯比赛数据训练,也使用了通用监督和强化学习方法。围棋代表了很多人工智能所面临的困难:具有挑战性的决策制定任务、难以破解的查找空间问题和优化解决方案如此复杂以至于用一个策略或价值函数几乎无法直接得出。之前在电脑围棋方面的主要突破是引入MCTS,这导致了很多其他领域的相应进步:例如,通用博弈,经典的计划问题,计划只有部分可观测问题、日程安排问题和约束满足问题。通过将策略和价值网络与树搜索结合起来,AlphaGo终于达到了专业围棋水准,让我们看到了希望:在其他看起来无法完成的领域中,AI也可以达到人类级别的表现。| 新智元特约专家评论我认为AI技术征服人类不需要太长时间,可能就发生在今年,AI技术征服人类。——微软亚洲工程院院长刘震I thought AI won&#39;t beat human in Go for a long time... &It may be this year! &Google&#39;s AlphaGo beats European professional champion 5:0; next on deck: 李世石九段 in March for M Google prize.——陈雷,万同科技CEO,留德MBA,连续创业者,现致力于人工智能+围棋的互联网服务,围棋网络9段对于人而言,围棋竞技是智力、心理和灵性三个维度的综合比拼。根据Deep Mind现有的计算机围棋解决方案描述,可以判断程序在智力维度取得了很大的进展。在智力方面,计算机围棋研究领域中要解决的核心问题是如何对盘面做形势判断,即专家评估系统的解决方案,专家评估系统能力的显著提高会导致围棋AI水准的本质提升。Deep Mind的计算机围棋解决方案其实可归结为精确的专家评估系统(value network)、基于海量数据的深度神经网络(policy network),及传统的人工智能方法蒙特卡洛树搜索的组合。有理由相信这个程序已经达到与标准业余6段棋手或中国职业棋手等级分200位之后的棋手实力相当的地步。从经验上看,由于缺少心理和灵性维度的突破,AlphaGo战胜人类最顶尖的围棋高手尚需时日。| 关于 Google DeepMindGoogle DeepMind&是一家英国人工智能公司,创立于2010年,名为DeepMind Technologies,2014年被谷歌收购,更名为Google DeepMind。这家公司由Demis Hassabis、Shane Legg和Mustafa Suleyman创立。公司目标是“解决智能”,他们尝试通过合并机器学习最好的方法和系统神经科学来构建强大的通用学习算法。他们试图形式化智能,进而不仅在机器上实现它,还要理解人类大脑。当前公司的焦点在于研究能玩游戏的电脑系统,研究的游戏范围很广,从策略型游戏围棋到电玩游戏。创始人介绍Demis Hassabis,人工智能研究人员,神经科学家,电脑游戏设计者,毕业于剑桥大学,并在伦敦大学获得PhD,研究兴趣:机器学习、神经科学。Shane Legg,计算学习研究人员,DeepMind创始人,研究兴趣:人工智能、神经网络、人工进化、强化学习和学习理论。Mustafa Suleyman,英国企业家,DeepMind Technologies的共同创始人和产品运营主管,同时也是Reos Partners的共同创始人,被谷歌收购后,他成为Google DeepMind的应用AI部门主管。
关闭雷锋广告
同步到新浪微博
中国智能硬件第一媒体。
「新智元」深度锁定人工智能及机器人产业链,关注产业前沿资讯,聚集学术和产业领袖,共同建构智能 + 产业的新纪元。
扫描二维码,关注作者
当月热门文章
本栏目由提供
为了您的账户安全,请
您的邮箱还未验证,完成可获20积分哟!
您的账号已经绑定,现在您可以以方便用邮箱登录

我要回帖

更多关于 人工智能围棋直播 的文章

 

随机推荐