如何看待最新的围棋人工智能围棋柯洁AlphaGo Zero

您(@)目前可用积分:3512540跟帖回复
共获得打赏:
凯迪微信公众号扫描二维码关注发现信息价值
微信扫一扫
分享此帖文
[转帖]围棋人工智能升级版完胜上一代“AlphaGo”
1015 次点击
16:23:21 发布在
&&&&【华盛顿10月19日电】美国谷歌公司旗下的人工智能(AI)开发创新企业、英国Deepmind公司近日宣布,开发出了最新围棋软件“AlphaGO Zero”。它采取与自己反复对局的学习方法,仅训练三天便以100:0的战绩完胜曾击败顶尖棋手的上一代“AlphaGo”。&&&&AlphaGo的学习方法是利用棋手对局数据等“先人智慧”。新一代的Zero则是学习了围棋规则的电脑反复自我对弈,掌握获胜可能性高的下法、专攻“强化学习”是其主要特点。&&&&由于不需要庞大的对弈数据,软件也变得更简洁。原本需要花费数月的训练时间也变得更短。&&&&AlphaGo去年与世界顶级韩国专业棋手等对局并胜出。之后继续进化,今年还战胜了号称世界最强的中国棋手。&&&&Zero在与曾战胜顶级韩国棋手的上一代AlphaGo对局的前3天里,进行了约500万局自我对弈。
用手机看帖文,请扫一扫。用微信/易信等扫描还可以分享至好友和朋友圈。
有启发就赞赏一下
优秀帖文推荐
| 只看此人
| 不看此人
16:45:33 &&
有点意思。
| 只看此人
| 不看此人
17:03:26 &&
阿尔法狗Zero 不看一张棋谱成为围棋之神李永完 科学专业记者&&&&打败李世石和柯杰的围棋人工智能阿尔法狗(AlphaGo)不用棋谱学习达到“围棋之神”的境界。Google DeepMind联合创始人戴密斯?哈萨比斯和首席科学家大卫?席尔瓦于18日在国际期刊《自然》刊登一篇论文,表明:“阿尔法狗的最新版本‘Zero’的性能超越了打败世界围棋冠军的阿尔法狗。” &&&&Google DeepMind首席执行官哈萨比斯称:“阿尔法狗Zero通过三天的围棋自学就以100:0的比分完胜对阵李世石的‘阿尔法狗Lee’,经过21天的学习就超越了以3:0战胜柯杰九段的‘阿尔法狗Master’。”&&&&阿尔法狗之前通过人类旗手的棋谱进行训练,学习如何下围棋。去年以4:1打败李世石九段的阿尔法狗Lee,利用七个月的时间学习了16万件棋谱。但是阿尔法狗Zero与之前的版本不同,只掌握了围棋基本规则,并无其他任何信息的输入。即在没有输入人类棋谱数据的情况下,通过下围棋的过程自动生成了大数据。&&&&◇使用100年前的心理学技巧▲ 一颗围棋棋子就是一个宇宙。围棋的走法共有10的170次方种可能性,超过宇宙原子总数。&&&&韩国电子通讯研究院(ETRI)高级研究员李京远表示:“阿尔法狗Zero的优势是会用强化学习。”强化学习是人类或动物大脑的实际运作方式。&&&&世界著名脑科学家、美国耶鲁大学医学教授李大烈表示:“强化学习是100年前出现的心理学概念,但是最近在脑科学领域运用十分活跃,脑科学的研究成果直接对人工智能开发产生积极影响。”&&&&◇或成为人类难题的突破口&&&&专家们期待阿尔法狗Zero增大人工智能运用幅度。例如,向阿尔法狗Zero输入首尔市人口分布和业务空间数据,在没有任何其他相关数据的情况下,也能绘制出与当前完全不同的、高效的地铁及公交路线图。还能对无人驾驶车运行提供安全保障,目前靠人类无法计算出其在运行过程当中出现事故的所有情况,但是通过阿尔法狗Zero可以预测所有可能性,包括目前从未出现的情况。&&&&阿尔法狗Zero也存在局限性。韩国科学技术计划评价院车斗元研究院表示:“目前人们无法明确解释阿尔法狗Zero算出的每一种走法,所以运用到实际生活,将有可能出现一些副作用。”
| 只看此人
| 不看此人
17:14:26 &&
AlphaGo Zero自学成才,轻易击败上一代AlphaGo谷歌旗下DeepMind新开发的AlphaGo Zero根本不需要人类专长,在掌握围棋规则和目标后投入自学,很快以100比0的战绩击败上代AlphaGo。&&&&&&&&克莱夫•库克森&&&&一台无师自通的电脑,在没有任何人类专家输入的前提下,成为了极其复杂的棋盘游戏围棋的世界顶级高手。&&&&在高调推出AlphaGo不到两年后,谷歌(Google)旗下位于伦敦的人工智能公司DeepMind宣布了人工智能(AI)技术的又一里程碑,AlphaGo是在这项古老的亚洲游戏上击败人类冠军的第一台机器。科学期刊《自然》(Nature)发表了相关细节。&&&&前几代AlphaGo最初通过分析成千上万场优秀人类玩家间的对决来发现制胜招数。新开发的AlphaGo Zero则根本不需要人类专长,只要知道游戏规则和目标就可以投入游戏。&&&&“它学游戏仅仅是通过跟自己玩,从完全的随机玩游戏开始,”DeepMind首席执行官杰米斯•哈萨比斯(Demis Hassabis)说。“在玩的过程中,它很快就超过了人类的水平,并以100比0的战绩击败了在论文中介绍过的上一代AlphaGo。”&&&&他的同事、AlphaGo项目负责人戴维•西尔弗(David Silver)补充称:“我们不以任何方式使用人类数据,就可以让它从一块白板创造知识。”在几天时间里,AlphaGo不仅学会了下围棋,而且还胜过了人类历经数千年在该游戏上累积的智慧。&&&&该团队开发了一种新的“强化学习”形式来创造AlphaGo Zero,将基于搜索的未来走法模拟与神经网络相结合,决定如何出招才能获得最高的获胜概率。该网络用数百万场培训游戏不断更新,每次更新都会带来稍稍增强的系统。&&&&人工智能&&&&AlphaGo的自学能力更强了如今,AlphaGo Master能够从与自己对弈中学习,而不是需要从人类比赛中学习。其效率也更高。&&&&&&&&尽管围棋在某种层面上非常复杂,具有比宇宙中的原子更多的潜在走法,但从另一个层面来说它也是简单的,因为它是一种“完美信息的游戏”――它不会像扑克牌或骰子一样与机会有关,而且棋局完全由棋子的位置决定。&&&&下围棋需要占据比对手更多的地盘。围棋的这个特征让它特别容易受到AlphaGo所依赖的计算机模拟的影响。DeepMind正在考虑将该技术应用于那些能以类似方式结构化的现实生活问题。&&&&哈萨比斯指出,它很有希望应用于预测蛋白质分子形状-――药物发现中的一个重要问题。其他可能的科学应用包括设计新材料和气候建模。&&&&译者/何黎
| 只看此人
| 不看此人
17:22:24 &&
AlphaGoθ祟碚f已是神e,居然pp松被
| 只看此人
| 不看此人
17:24:58 &&
今后机器人同机器人来一次比赛如何?阿尔法没对手?
跳转论坛至:
╋猫论天下&&├猫眼看人&&├商业创富&&├时局深度&&├经济风云&&├文化散论&&├原创评论&&├中间地带&&├以案说法&&├股市泛舟&&├会员阅读&&├舆情观察&&├史海钩沉╋生活资讯&&├杂货讨论&&├健康社会&&├家长里短&&├吃喝玩乐&&├职场生涯&&├咱们女人&&├家有宝宝&&├消费观察&&├房产家居&&├车友评车&&├猫眼鉴宝╋影音娱乐&&├图画人生&&├猫影无忌&&├影视评论&&├网络剧场&&├音乐之声&&├网友风采&&├娱乐八卦&&├笑话人生&&├游戏天地╋文化广场&&├菁菁校园&&├甜蜜旅程&&├心灵驿站&&├原创文学&&├汉诗随笔&&├闲话国粹&&├体育观察&&├开心科普&&├IT 数码╋地方频道&&├会馆工作讨论区&&├凯迪华南&&├凯迪西南&&├海口会馆&&├珠三角&&├凯迪深圳&&├北京会馆&&├上海会馆&&├河南会馆&&├长三角&&├贵州会馆&&├杭州会馆&&├香港会馆&&├台湾会馆&&├美洲会馆╋凯迪重庆╋站务&&├站务专区&&├企业家园&&├十大美帖&&├视频创作&&├商品发布
快速回复:[转帖]围棋人工智能升级版完胜上一代“AlphaGo”
本站声明:本站BBS互动社区的文章由网友自行帖上,文责自负,对于网友的贴文本站均未主动予以提供、组织或修改;本站对网友所发布未经确证的商业宣传信息、广告信息、要约、要约邀请、承诺以及其他文字表述的真实性、准确性、合法性等不作任何担保和确认。因此本站对于网友发布的信息内容不承担任何责任,网友间的任何交易行为与本站无涉。任何网络媒体或传统媒体如需刊用转帖转载,必须注明来源及其原创作者。特此声明!
【管理员特别提醒】 发布信息时请注意首先阅读 ( 琼B2- ):
;。谢谢!刚刚击败世界围棋冠军的 AlphaGo,是怎样「思考」的?
DeepMind 研发的围棋 AI AlphaGo 系统是如何下棋的?
董飞,Learning without limit
谷歌 DeepMind 宣布他们研发的神经网络围棋 AI,AlphaGo,在 2015 年 10 月首次 5:0 战胜了人类职业选手欧洲围棋冠军 Fan Hui 二段。这篇论文由 David Silver 等完成。里面的技术是出于意料的简单却又强大。为了方便不熟悉技术的小白理解,这里是我对系统工作原理的解读。下面主要编译与: ,原作者是SpinPunch CTO DAN MAAS。
&深度学习&是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络&大脑&进行精准复杂的处理,就像人们识别物体标注图片一样。
虽然神经网络在几十年前就有了,直到最近才形势明朗。这是因为他们需要大量的&训练&去发现矩阵中的数字价值。对早期研究者来说,想要获得不错效果的最小量训练都远远超过计算能力和能提供的数据的大小。但最近几年,一些能获取海量资源的团队重现挖掘神经网络,就是通过&大数据&技术来高效训练。
AlphaGo 是通过两个不同神经网络&大脑&合作来改进下棋。这些大脑是多层神经网络跟那些 Google 图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13 个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。
这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这个处理器有大量的随机性元素,所以我们是不可能精确知道网络是如何&思考&的,但更多的训练后能让它进化到更好。
第一大脑: 落子选择器 (Move Picker)
AlphaGo 的第一个神经网络大脑是&监督学习的策略网络(Policy Network)& ,观察棋盘布局企图找到最佳的下一步。事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。你可以理解成&落子选择器&。
落子选择器是怎么看到棋盘的?数字表示最强人类选手会下在哪些地方的可能。
团队通过在 KGS(网络围棋对战平台)上最强人类对手,百万级的对弈落子去训练大脑。这就是 AlphaGo 最像人的地方,目标是去学习那些顶尖高手的妙手。这个不是为了去下赢,而是去找一个跟人类高手同样的下一步落子。AlphaGo 落子选择器能正确符合 57%的人类高手。(不符合的不是意味着错误,有可能人类自己犯的失误)
更强的落子选择器
AlphaGo 系统事实上需要两个额外落子选择器的大脑。一个是&强化学习的策略网络(Policy Network)&,通过百万级额外的模拟局来完成。你可以称之为更强的。比起基本的训练,只是教网络去模仿单一人类的落子,高级的训练会与每一个模拟棋局下到底,教网络最可能赢的下一手。Sliver 团队通过更强的落子选择器总结了百万级训练棋局,比他们之前版本又迭代了不少。
单单用这种落子选择器就已经是强大的对手了,可以到业余棋手的水平,或者说跟之前最强的围棋 AI 媲美。这里重点是这种落子选择器不会去&读&。它就是简单审视从单一棋盘位置,再提出从那个位置分析出来的落子。它不会去模拟任何未来的走法。这展示了简单的深度神经网络学习的力量。
更快的落子选择器
AlphaGo 当然团队没有在这里止步。下面我会阐述是如何将阅读能力赋予 AI 的。为了做到这一点,他们需要更快版本的落子选择器大脑。越强的版本在耗时上越久-为了产生一个不错的落子也足够快了,但&阅读结构&需要去检查几千种落子可能性才能做决定。
Silver 团队建立简单的落子选择器去做出&快速阅读&的版本,他们称之为&滚动网络&。简单版本是不会看整个 19*19 的棋盘,但会在对手之前下的和新下的棋子中考虑,观察一个更小的窗口。去掉部分落子选择器大脑会损失一些实力,但轻量级版本能够比之前快 1000 倍,这让&阅读结构&成了可能。
第二大脑:棋局评估器 (Position Evaluator)
AlphaGo 的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步,它预测每一个棋手赢棋的可能,在给定棋子位置情况下。这&局面评估器&就是论文中提到的&价值网络(Value Network)&,通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的,但对于阅读速度提高很有帮助。通过分类潜在的未来局面的&好&与&坏&,AlphaGo 能够决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行,那么 AI 就跳过阅读在这一条线上的任何更多落子。
局面评估器是怎么看这个棋盘的。深蓝色表示下一步有利于赢棋的位置。
局面评估器也通过百万级别的棋局做训练。Silver 团队通过 复制两个 AlphaGo 的最强落子选择器,精心挑选随机样本创造了这些局面。这里 AI 落子选择器在高效创建大规模数据集去训练局面评估器是非常有价值的。这种落子选择器让大家去模拟继续往下走的很多可能,从任意给定棋盘局面去猜测大致的双方赢棋概率。而人类的棋局还不够多恐怕难以完成这种训练。
这里做了三个版本的落子选择大脑,加上局面评估大脑,AlphaGo 可以有效去阅读未来走法和步骤了。阅读跟大多数围棋 AI 一样,通过蒙特卡洛树搜索(MCTS)算法来完成。但 AlphaGo 比其他 AI 都要聪明,能够更加智能的猜测哪个变种去探测,需要多深去探测。
蒙特卡洛树搜索算法
如果拥有无限的计算能力,MCTS 可以理论上去计算最佳落子通过探索每一局的可能步骤。但未来走法的搜索空间对于围棋来说太大了(大到比我们认知宇宙里的粒子还多),实际上 AI 没有办法探索每一个可能的变种。MCTS 做法比其他 AI 有多好的原因是在识别有利的变种,这样可以跳过一些不利的。
Silver 团队让 AlphaGo 装上 MCTS 系统的模块,这种框架让设计者去嵌入不同的功能去评估变种。最后马力全开的 AlphaGo 系统按如下方式使用了所有这些大脑。
1. 从当前的棋盘布局,选择哪些下一步的可能性。他们用基础的落子选择器大脑(他们尝试使用更强的版本,但事实上让 AlphaGo 更弱,因为这没有让 MCTS 提供更广阔的选择空间)。它集中在&明显最好&的落子而不是阅读很多,而不是再去选择也许对后来有利的下法。
2. 对于每一个可能的落子,评估质量有两种方式:要么用棋盘上局面评估器在落子后,要么运行更深入蒙特卡罗模拟器(滚动)去思考未来的落子,使用快速阅读的落子选择器去提高搜索速度。AlphaGo 使用简单参数,&混合相关系数&,将每一个猜测取权重。最大马力的 AlphaGo 使用 50/50 的混合比,使用局面评估器和模拟化滚动去做平衡判断。
这篇论文包含一个随着他们使用插件的不同,AlphaGo 的能力变化和上述步骤的模拟。仅使用独立大脑,AlphaGo 跟最好的计算机围棋 AI 差不多强,但当使用这些综合手段,就可能到达职业人类选手水平。
AlphaGo 的能力变化与 MCTS 的插件是否使用有关。
这篇论文还详细讲了一些工程优化:分布式计算,网络计算机去提升 MCTS 速度,但这些都没有改变基础算法。这些算法部中分精确,部分近似。在特别情况下,AlphaGo 通过更强的计算能力变的更强,但计算单元的提升率随着性能变强而减缓。
优势和劣势
我认为 AlphaGo 在小规模战术上会非常厉害。它知道通过很多位置和类型找到人类最好的下法,所以不会在给定小范围的战术条件下犯明显错误。
但是,AlphaGo 有个弱点在全局判断上。它看到棋盘式通过 5*5 金字塔似的过滤,这样对于集成战术小块变成战略整体上带来麻烦,同样道理,图片分类神经网络往往对包含一个东西和另一个的搞不清。比如说围棋在角落上一个定式造成一个墙或者引征,这会剧烈改变另一个角上的位置估值。
就像其他的基于 MCTS 的 AI, AlphaGo 对于需要很深入阅读才能解决的大势判断上,还是麻烦重重的,比如说大龙生死劫。AlphaGo 对一些故意看起来正常的局也会失去判断,天元开盘或者少见的定式,因为很多训练是基于人类的棋局库。
我还是很期待看到 AlphaGo 和李世石 9 段的对决!我预测是:如果李使用定式,就像跟其他职业棋手的对决,他可能会输,但如果他让 AlphaGo 陷入到不熟悉情形下,他可能就赢。
参考资料:
Nature 论文:
最后也欢迎大家关注我的知乎专栏:
分享硅谷最新技术,文化,书写成长,一起进步。
本文首发微信公众号&董老师在硅谷&(donglaoshi-123)
更多讨论,查看&知乎圆桌 &&
客官,这篇文章有意思吗?当前标签:AlphaGo
最新版“阿法狗” AlphaGo Zero从零起步自学围棋,经过3天之后以100:0的成绩轻松战胜了其前任AlphaGo。
围棋峰会今日进入最后一天,柯洁九段中盘告负,总比分0:3败于AlphaGo。赛后AlphaGo创始人宣布AlphaGO将“退役”,被授予中国职业围棋九段称号。
经历第一场惜败、第二场中盘投子认输之后,柯洁今日再战AlphaGo。最终,AlphaGo执黑中盘胜。
5月25日,人机大战第二局继续进行,柯洁执白迎战AlphaGo,弈至155手,柯洁认负,AlphaGo执黑中盘胜,目前比分2比0。
经过4个半小时的对弈,三番棋第一局,AlphaGo执白1/4子胜,首盘战胜柯洁。目前比分柯洁0:1 AlphaGo。
已经升级到2.0版本的谷歌围棋人工智能AlphaGo将在明天重燃“人机大战”战火,此番来挑战的将是现今世界棋力第一的中国围棋选手柯洁。
今日,谷歌在中国棋院召开发布会,正式确认旗下的人工智能AlphaGo将来到中国与柯洁进行围棋对弈。
谷歌中国或将于本月10日召开新闻发布会,目前发布会内容暂未可知,但从涉及中国棋院来看,发布会或将最终宣布“AlphaGo对战柯洁”的具体信息。
2017年IT领袖峰在深圳召开,业内大佬云集。BAT三巨头再聚首,马云、马化腾、李彦宏齐聚深圳。开幕式上,马云发表主题演讲。
日前,Goratings世界围棋排名进行了重大调整,人工智能围棋程序AlphaGo和DeepZenGo被从排名中删除,李世石重返第五位。
据世界职业围棋排名网站GoRating最新数据显示,目前柯洁排名第一,积分为3629分,谷歌DeepMind人工智能AlphaGo则以3601分位居第二。
聂卫平做客某卫视访谈节目时谈到李世石赢的那一场,“那是AlphaGo死机了,断电了。”
昨天晚上,神秘围棋大师“Master”在赢了周睿羊,获得第59场连胜的傲人战绩同时,在公共频道上宣布它就是AlphaGo!
围棋领域似乎是一直属于人类的王冠,然而在跨年之交,一个神秘围棋账号Master的出现却再次掀起了涟漪。
中国的百度和腾讯正联手开发一款围棋人工智能软件,目前已经到了实战测试对局阶段。
世界职业围棋排名网站GoRatings公布最新世界排名,谷歌旗下DeepMind的人工智能系统AlphaGo以3612分,超越3608分的柯洁成为新的世界第一。
国家体育总局棋牌运动管理中心党委书记杨俊安透露:谷歌与中国围棋协会已经有过几次接触,初步达成了年内柯洁和AlphaGo进行“人机终极对决”的意向。
谷歌人工智能AlphaGo以4:1悬殊比分大胜韩国围棋高手,不少人担心计算机已经开始超越人类。现在,持有上述观点的人们又有了新的例证。
周五时,暴雪CEO迈克·莫尔海姆(Mike Morhaime)到访韩国首尔,莫尔海姆表示,他对《星际争霸》职业玩家和AI的比赛感到兴奋。
自谷歌人工智能“阿尔法围棋”(AIphaGo)战胜韩国棋手李世石后,人工智能再次成为舆论热议焦点。
综合标签推荐
系列标签推荐凤凰号出品
不需要人类知识!36小时自学成才、100:0狂虐老狗的最强版AlphaGo是如何炼成的?
原标题:不需要人类知识!36小时自学成才、100:0狂虐老狗的最强版AlphaGo是如何炼成的?来源 | 乌镇智库编辑 | 黑智去年的AlphaGo战胜李世乭掀起了全球的人工智能热潮。今年的中国围棋天才柯洁在乌镇依然败于AlphaGo之手。北京时间19日01:00,AlphaGo再次登上科学杂志《自然》,Deepmind公司发表重磅论文,公布了其研发的代号AlphaGo Zero的“最强版AlphaGo” 的相关研究。新一代狗压倒“老狗”的,是它“自学成才”的能力。打败李世石的AlphaGo用了3000万盘比赛作为训练数据,AlphaGo Zero用了490万盘比赛数据。从一张如同婴儿般的“白纸”开始,经过3天的训练,AlphaGo Zero就以100:0的比分完胜对阵李世乭的那版AlphaGo。21天后,AlphaGo Zero达到了Master的水平,这也是当年在网上60连胜横扫棋坛、战胜了柯洁的版本。它还开发了自己独特的新策略,并拥有“创造的真正时刻”。AlphaGo已经退休。但强化学习,将改变世界。 打破禁锢:先有输入再谈超人性能 Deepmind的论文标题相当直接:《Mastering the game of Go without human knowledge》——机器,已经不再需要人类。人工智能研究已经在多个领域取得飞速进展,从语音识别、图像分类到基因组学和药物研发。在很多情况下,这些是利用大量人类专业知识和数据的专家系统。但是,人类知识成本太高,未必可靠,或者只是很难获取。因此,AI 研究的一个长久目标就是跨过这一步,创建在最有难度的领域中无需人类输入就能达到超人性能的算法。之前的 AlphaGo 版本首先基于数千场人类围棋比赛来训练如何学习围棋。但 AlphaGo Zero 跳过了这一步,从自己完全随机的下围棋开始来学习围棋。通过这种方式,它快速超越了人类棋手的水平,并且以 100:0 的比分打败了之前战胜世界冠军的 AlphaGo。AlphaGo Zero 利用新型强化学习完成这样的壮举,在训练过程中它是自己的老师。该系统的神经网络最初对围棋一无所知,然后它通过将该神经网络与强大的搜索算法结合进行自我对弈。神经网络在下棋过程中得到调整和更新,来预测棋招和比赛的最终胜者。更新后的神经网络重新与搜索算法连接,创建新的更强大的 AlphaGo Zero,然后重复上述流程。每次迭代中,系统的性能取得小幅上升,自我对弈的比赛质量不断上升,带来更加准确的神经网络和历史最强的 AlphaGo Zero 版本。这项技术比起前几个版本的 AlphaGo 更加强大,因为它不再受人类知识极限的约束。相反,它从一张白纸的状态开始,和世界最强的围棋选手 AlphaGo(它自己)学习下棋。它与之前的版本在以下几个方面存在差异:AlphaGo Zero 只需要围棋棋盘中的黑子和白子作为输入,而前几个版本的 AlphaGo 还包括少量手工设计的特征。它只有一个神经网络,而再不是两个。早期几个版本的 AlphaGo 使用「决策网络」选择下一步棋的位置,使用「价值网络」预测每一个位置上决定的胜者。这两个网络在 AlphaGo Zero 中被结合起来,从而使其更高效地训练和评估赛况。AlphaGo Zero 不使用「rollouts」(其它围棋程序使用的快速、随机的下棋方式,以从当前的棋盘位置分布预测哪一个棋手会赢),取而代之,它依靠其优质的神经网络评估下棋位置。Deepmind研究人员介绍AlphaGo Zero究其根本:算法贡献 > 硬件提升上述这些区别都有助于提高系统的性能,并使其更加一般化,然而算法上的变化才是系统更加强大和高效的重要原因。由于硬件和算法的进步才使得 AlphaGo 能持续地变得越来越高效——Zero 版本只需 4 块 TPU 即可运行。仅仅经过三天的自我对抗训练,AlphaGo Zero很干脆地以100:0的战绩打败了之前的AlphaGo版本(它曾18次击败世界冠军李世石)。又经过40天的自我对抗训练,AlphaGo Zero变得更加强大,甚至优于打败世界头号选手柯洁的AlphaGo版本「Master」。等级分排名(在围棋等竞争性比赛中对选手的相关技巧的水平的度量):显示 AlphaGo 如何在发展过程中逐渐变得强大。在几百万盘 AlphaGo 自我博弈的竞赛之后,系统在尝试中逐渐学会了围棋游戏,在短短几天内积累了人类数千年的知识。AlphaGo Zero 同时还发现了新的知识,发展出非常规和具有创意性的下法,这些技术已经超越了此前 AlphaGo 与李世石和柯洁对弈时展现的水平。AlphaGo 展现的创造力让我们有理由相信人工智能将会成为人类智慧的放大器,帮助我们实现自己的使命,去解决人类面临的最具挑战的问题。尽管 AlphaGo Zero 仍然在发展初期,但是它完成了通向该目标的关键一步。如果类似的技术可以应用到蛋白质折叠等其他结构化问题中,减少能量消耗或搜索最新的材料,则它带来的突破有可能给整个社会带来积极的影响。 算法解析:自我对抗的竞争性训练AlphaGo Zero 所采用的神经网络是一种新颖的强化学习算法,即自我对抗(self-play)的竞争性训练。此前,OpenAI 曾发表论文表示自我对抗训练可以在简单环境下产生远超环境复杂度的行为。而这一次 AlphaGo Zero 和此前 AlphaGo Fan 与 AlphaGo Lee 的很大区别就是采用了这种自我对抗式的训练策略。图 1:AlphaGo Zero 中的自我对抗强化学习a:AlphaGo Zero 和自己进行 s_1,...,s_T 对弈。在每一个位置 s_t 处使用最新的神经网络 f_θ执行蒙特卡罗树搜索(MCTS)α_θ(见图 2)。根据 MCTS 计算的搜索概率选择棋招(a_t ~ π_t)。最终位置 s_T 的得分根据游戏规则计算,进而计算游戏获胜者 z。b: AlphaGo Zero 中的神经网络训练。神经网络使用原始棋盘位置 s_t 作为输入,使用参数θ将其传播通过多个卷积层,然后输出代表棋招概率分布的向量 p_t,和代表当前选手在 s_t 获胜的概率标量值 v_t。神经网络的参数θ得到更新以最大化策略向量 p_t 和搜索概率π_t 的相似性,并将预测获胜者 v_t 和获胜者 z 之间的误差最小化(见公式 1)。新的参数将在下一次迭代的自我对抗中使用。根据神经网络 f_θ,在每一个位置 s 处执行 MCTS 搜索。图2:AlphaGo Zero中的MCTSa:每一次模拟通过选择最大化行动价值Q的边来遍历整棵树,加上上面的(依赖于一个已储存的先验概率P)置信边界U,并访问边的总数N(每遍历一次增加1)。b:叶结点得到扩展,并且相关的位置由神经网络 (P(s, ·),V(s)) = f_θ(s)评估;P值的向量存储在s的外向边(outgoing edges)中。c:行动价值Q被更新以追踪当前行动下的子树的所有评估V的平均值。d:一旦搜索完成,会返回搜索概率值(search probabilities)π,和N^(1/τ)成比例,其中N是每一次行动自根状态(root state)以来的访问总数,τ是控制温度(temperature)的参数。DeepMind公司联合创始人兼首席执行官Demis Hassabis表示,AlphaGo Zero的强大之处,在于它“不再受限于人类知识”。他说,如果将之应用到大健康问题上,比如对阿尔茨海默病(AD)的治疗上,它甚至可以在几周的时间里,拿出需要人类几百年才能找到的治疗方案。“最终,我们希望利用算法的突破,解决各种紧迫的现实世界的问题,”Hassabis说,“如果类似的技术可以应用于其他结构性问题,如蛋白质折叠,减少能源消耗或寻找革命性的新材料,由此产生的突破有可能推动人类的理解。并对我们的生活产生积极影响。”DeepMind已经开始使用AlphaGo Zero来研究蛋白质折叠,并承诺将很快发布新的发现。错误折叠的蛋白质是造成许多破坏性的疾病的元凶,包括老年痴呆症、帕金森和囊性纤维化。大健康领域正日益成为科技公司关注的对象。去年,微软宣布计划在10年内推出几项“粉碎”身体的项目,从而治愈癌症。Google旗下的抗衰老公司Calico也在调查延长人类寿命甚至停止老化的方法。最重要的是,AlphaGo Zero能够从空白的状态学习,它自己成为“自己的老师”,能够通过玩游戏和自己对抗,每时每刻都在提高。它不需要人的知识、数据或任何干预。AlphaGo的首席研究员Dave Silver博士说:“如果你能达到白板学习,就相当于你有一个代理,可以从围棋游戏迅速移植到其他领域,把你自己从你所处领域的细节中解放出来。这是一个通用的算法,它可以应用到任何地方。”“对我们来说,AlphaGo不是去战胜人类的,它是个科学发现,能够自己学习知识意味着什么?说明在很短的时间内,AlphaGo Zero已经理解了人类几千年来积累的所有围棋知识,并分析了它,甚至它能够超越,开发出具有创造性和新颖性的新知识。”附:论文导读:自我对弈迭代棋招“长期以来,人工智能有一个目标就是算法能够在难度较高的领域从零开始学得超人的性能。近期,AlphaGo 成为在围棋领域第一个打败人类世界冠军的程序。AlphaGo 中的树搜索使用深度神经网络评估位置,选择棋招。这些神经网络通过监督学习从人类专家的棋招中学习,然后通过强化学习进行自我对弈。本文,我们介绍一种算法,该算法仅依靠强化学习,不使用游戏规则以外的人类数据、指导或领域知识。AlphaGo 成为自己的老师:我们训练一种神经网络来预测 AlphaGo 的下一步以及 AlphaGo 游戏的获胜者。该神经网络提升树搜索的能力,带来下一次迭代中更高质量的棋招选择和更强大的自我对弈。新程序 AlphaGo Zero 从头开始学习,并达到了超人的性能,以 100-0 的比分打败曾经战胜人类世界冠军的 AlphaGo。”——《Mastering the game of Go without human knowledge》【对原Nature论文有兴趣请回复“Zero”即可浏览完整报告】
本文来自凤凰号,仅代表凤凰号自媒体观点。
用微信扫描二维码
分享至好友
用微信扫描二维码
分享至朋友圈
凤凰争鸣微信号
来点暖心的!扫这里

我要回帖

更多关于 李世石人工智能围棋 的文章

 

随机推荐