从零开始,AlphaGo Zero是怎样探索极限基地官网围棋极限的

&标签:&&&&
&标签:&&&&
&标签:&&&&
&标签:&&&&
&标签:&&&&
&标签:&&&&
&标签:&&&&
&标签:&&&&& 文章列表页
头条Special column注册 | 登录
前腾讯PM,现图灵机器人-人才战略官
专为互联网人打造的365天成长计划,500门视频课程随便看,构建你的产品、运营知识体系。
端午节修整归来,集中看了十几篇柯洁和AlphaGo“人机大战”的文章,感觉我还能分享些不一样的东西,希望能进一步的抛砖引玉吧。
人机大战,胜负已分;但其意义不止于胜负,而在“惊醒”二字。
一、惊醒:棋艺
人类对于围棋的认知,还有大幅提升的空间吗?各种所谓“定式”,真的是唯一最优解吗?
当人类小伙伴已很难贡献新的脑洞时,AlphaGo来了,源源不断输出刺激棋手获得灵感的“机洞”。
关于围棋本身的解读,推荐曹政caoz老师的2篇文章
这里我总结了4点:
第一局柯洁输了1/4子,但其实是巨大的差距。因为看似AlphaGo领先越来越小,其实胜率越来越高,直到最后1/4子的优势,你却绝对找不到任何翻盘的机会。
第二局,柯洁逼出了“目前”人类能够让AlphaGo展现的最强实力。这是AlphaGo与人类的所有对局里,棋谱最完美的一份,详见里的描述,非常精彩!
但是,人类还没有逼出AlphaGo的极限。只有AlphaGo自己和自己下,人类才能知道,究竟它是否擅长官子,以及在逆境下会有怎样的表现。
但是但是,AlphaGo也还没有逼出围棋的极限——并没有完全征服围棋。这部分内容,推荐看微软亚洲研究院郑宇博士的解读:
二、惊醒:AI
正如柯洁所说,“我的改变只是小小的改变,但DeepMind团队是改变世界。”
Deepmind发明AlphaGo,并不是为了赢取围棋比赛,而是想测试其人工智能平台,最终“把这些算法应用到真实的世界中,为社会所服务”。
怎么理解这句话?需要去看源头——推荐大家详细看看Deepmind创始人、AlphaGo之父哈萨比斯(Demis Hassabis)近日在母校英国剑桥大学做的一场题为的演讲。
简单概括说:
Deepmind想做“通用人工智能”。而不是仅能在某个特定领域发挥作用的人工智能应用。
围棋是一个靠直觉而非计算的游戏,而AlphaGo是在尝试“用计算拟合直觉”。具体说就是,通过深度神经网络,来模仿人类下围棋这种直觉行为。
在这样的背景下,Deepmind团队在看比赛的角度和心态和我们是不一样的。比如,“其实(AlphaGo和李世石比赛)第一局,我们非常紧张,因为如果第一局输了,很有可能我们的算法存在巨大漏洞,有可能会连输五局。但是如果我们第一局赢了,证明我们的加权系统是对的。”
在3:0战胜柯洁之后,Demis Hassabis宣布AlphaGo 将从棋坛“退役”,“乌镇围棋峰会是它(AlphaGo)作为一个竞技程序所能企及的巅峰。因此,此次峰会将是 AlphaGo 参加的最后一场赛事”。
从现在开始,AlphaGo 的研发团队将把精力投入到其它重大挑战中,研发出高级通用算法,为科学家们解决最复杂的问题提供帮助,包括找到新的疾病治疗方法、显著降低能源消耗、发明革命性的新材料等。
当然,未来Deepmind可能还会带来一次全民讨论的事件,人机大战 in《星际争霸2》。去年,DeepMind 就已宣布《星际争霸2》将会是AlphaGo 在围棋之后,想要征服的下一个目标。
但是,有2个问题:
乌镇围棋峰会,是AlphaGo作为一个竞技程序所能企及的巅峰吗?
“用计算拟合直觉”这条路径,是否能创造出“通用人工智能”呢?
正如前文提到的,AlphaGo还没有逼出围棋的极限。郑宇博士也提到,我们不要低估了人类后天的快速(小样本)学习能力,如果把AlphaGo开放出来,人类和她对弈次数更多,人类是有机会的。因为“如果还是基于现有的学习体系,即便再给AlphaGo一亿副棋谱,再添加一万块GPU,它进步的速度也终将放缓,因为新增的棋谱和计算资源相对于2*10171这个搜索空间来说只是沧海一粟。”
如果AlphaGo不玩儿了,以后哪个AI继续来帮助人类提高呢?目前看,可能是腾讯的围棋AI“绝艺”。caoz文章提到:
绝艺目前的水平肯定不如现在的AlphaGo V25版本,但明显优于最早战胜围棋欧洲冠军樊麾的AlphaGo V13版本,与去年战胜李世石的AlphaGo V18版本,业内的人认为是可以相提并论的。
基本上,目前的AlphaGo,很可能并不是围棋AI所能企及的巅峰。
那如果未来腾讯“绝艺”结果AI这一方的接力棒,那人类这边的领军人物会是谁呢?
可能还会是柯洁。
柯洁去年说能够战胜AlphaGo,今年变怂,是因为他当时针对的是旧版本的AlphaGo V18,但今年的AlphaGo V25版本,已有了完全碾压旧版本的进步优势(大约让3子)。
如果有人认为柯洁太狂妄,是没有深入去看柯洁的心。
caoz文章提到,柯洁狂妄的几次基本都兑现了,比如一次说“李世石只有5%机会”,一次说要“让井山裕太血溅五步”,一次说“农心杯还要靠我”。
狂妄是什么?狂妄是自己水平很次、也不知道对手水平几何的时候说大话。且不说围棋世界冠军,只要是围棋高段位的职业选手,可能都没有狂妄的。学围棋,很多都是从4、5岁开始,每天12个小时,一周7天,天天钻研。心浮气躁之人,是受不了这些的;真正狂妄之人,说话时会趾高气扬,柯洁不是那个模样。
柯洁不是狂妄,那是什么呢?真实。
他是真的看到“李世石只有5%机会”,他是真心觉得“农心杯还要靠我”。就像AlphaGo和李世石比赛直播时,所有做即时点评的嘉宾职业棋手里,只有柯洁的形势判断一直是最准确的。也许,现在柯洁真的已在人类朋友圈里独步天下了。
但他和以前的那些超一流棋手,还多了一份单纯的“真实”。
他能够把自己看到的“一览众山小”之境,说出来。这并不是因为他“敢于”说出来,因为在他心里,很可能本就没有“敢”或“不敢”的念头。就像当别人赞叹微信懂得“克制”的时候,张小龙会略显惊讶的感慨,本来不就应该这样吗?真正能做到这个境界的人,并不是在“用力”的调整心念,而是本来就处在那个状态。柯洁能够说出那些看似狂妄的话,很可能反而是因为,他内心有真正的平等。
但是,要想和AI继续在围棋领域绝代双骄般的互相提升,有No.1的棋艺和真实,还不够,在柯洁真实背后,还有一个关键,“心性”。
大家可以看看柯洁的微博,他的文字之中,有一种灵动的东西,但又不止于90后的逗比搞笑可爱,怎么描述呢……有一种味道。有些东西很难用文字表达了,大家可以看这个短视频,是去年,他自己拿手机拍的,大家就当娱乐放松一下吧,很有意思的。
感兴趣的同学,还可以去围观粉丝点评。
虽然柯洁说这次是他最后的3盘人机大战,但我个人还是希望,有一天他能带来人类的首胜。
再说第2个问题,“用计算拟合直觉”这条路径,是否能创造出“通用人工智能”呢?
个人观点是:
短期来说,“用计算拟合直觉”是现阶段人类能采取的最佳路径,但还不能创造出真正的通用人工智能。
可能10或20年之后,人类能直接“用直觉实现直觉”,但这需要更本质的突破,比如结合量子力学,比如有更深入的超越图灵停机问题的认知,等等,不过这是另外一个话题了,先打住。
“用计算拟合直觉”,现阶段是非常非常好的,但现阶段的目标,也许最好不是直接创造出一个“通用AI”,而是能够和人协作的“通用辅助AI”。因为“AI+人工”很可能是未来很长一段时间内、实际场景中的AI产品形态。
也就是说,以前是用计算做计算,现在是用计算做直觉,未来可能是用直觉做直觉。
三、惊醒:人心
“下棋是很快乐的事情。有的时候我太在意胜负了。前一天晚上我是真的没睡好,我很紧张。我一直在想用什么招数去对付AlphaGo,哎,庸人自扰。我希望以后下快乐围棋。我可能跟人类下棋能感受到快乐。跟AlphaGo下棋我特别痛苦,他实在是太冷静了,没有一丝获胜的希望。”
这是柯洁自己说的一段话。
所以,其实AlphaGo也在刺激我们重新认知“人”本身,比如,什么是真正的价值和快乐。
对于下棋(甚至所有事情)来说,如果快乐是战胜别人,那是很危险的。就像我以前玩游戏(实况足球或者dota),输了,想再来一盘争取赢,赢了,也想再来一盘继续赢,但不论输赢如何,过后都是空虚。
做事业最厉害的人,往往都是好胜心极强之人。不论下棋、习武还是创业。基于他们本身的福报和智慧,有的人能够非常成功。
但是,我们往往会混淆结果和快乐的关系——结果和快乐,其实是两个维度的事情。
有结果,是因为曾经播下了种子,并且有不断的灌溉、阳光……。而快乐,是拥有结果之后的副产品,但在没有结果的时候,有的人也生活得非常快乐。
这说明什么?这说明在快乐背后,有其生成机制,“结果”只是助缘之一,非必要,非充分。所以,如果我们想追求快乐,不应该一味的去追求结果,而应该挖掘快乐背后的机制和源头。
如果有一天,柯洁不仅在和人类对弈时发现快乐,也能在和AI对弈时体验快乐,那他不仅是离围棋的奥义更近了一步,也是更深的找到了自己。
四、惊醒:共生
AI已来到人类世界,但我们还没有准备好和她共生。
当柯洁被AlphaGo击败后,下棋的继续下棋,研究AI的继续研究AI,那我们普通人呢?好像没什么特别的变化,该干嘛干嘛。
但是,这类事件,今后还会不断的出现,总有一天,我们会不得不直面2个问题:
AI是什么?
我们如何跟AI相处?
先引用一段AI领域真正的思想者、《哥德尔、艾舍尔、巴赫:集异璧之大成》(GEB)这本AI奇书的作者“侯世达”的话——
现在主流的研究虽然很厉害,但却与真正的人工智能没有半点关系。……我们没有致力于开发实际的应用,诸如翻译引擎、问答机器、网络搜索软件此类的东西。我们只是在努力地理解人类概念的本质和人类思考的根本机制。我们更像是哲学家或试图探究人类心智奥秘的心理学家,而非旨在制造聪明的计算机或机灵程序的工程师。我们是一群老派的纯粹主义者,我们的动力源于内心深处的哲学好奇心,而不是制造实用设备的欲望。
现阶段,人工智能领域(特别是国内),不论在技术还是产品角度,几乎都没有特别重大的突破。“过于把AI当作一个工具”,可能是其原因之一。
我甚至听说,有一些欧美人对于AI的理念是,如果对于AI的本质说不清楚,那就先把她造出来再说。——如果属实,这是非常可怕的想法。
对于AI的本质,我曾经在200页PPT中初步分享过个人观点:
相较于Brain-like,或Baby-like,我理解AI是Original AI: New Species,即,原生/本来的AI,是一个新的物种——
她承载了人类探索自我极限和天人关系的载体——一个虽然从人类意识生出,且必须和人类交互/共生,但又独立于人类的、具备自主意识的新物种形式。
如何我们希望AI能帮助到人类、不伤害人类,那我们在创造她之前,首先需要清楚,我们自己希望如何跟她共生。
这里,分享几点最近的认知,希望能抛砖引玉:
不是让AI完全模拟人。人类直接繁殖就可以了……
不仅是实现比人更强的能力。比如计算。
更需要发挥AI的独特优势 & 剥离某些人不希望在同类身上看到的东西。比如,人在自私角度,都希望有事时我找你,永远在线、立即回复;但没事时,特别是我很烦的时候,不要来找我……。
如果能更好的认知AI,如果能更好的认识自己,我们才能更好的和AI共生。
注1:AlphaGo相关活动信息(in 北京)
分享题目:《人工智能如何打败围棋第一人柯洁?AlphaGo的前世今生》
分享人:Martin Muller【AlphaGo的主要研究者David Silver和黄世杰(Aja Huang)的导师】
时间&地点:6月4日10-11点,清华东主楼103会议室
详情可见:(打开速度有点慢)
注2:本周日(6月4日)下午,我将在“人人都是产品经理/起点学院公开课”上分享《从互联网PM到AI PM》,地点在北京中关村,感兴趣的同学可以点击。
#专栏作家#
hanniman,微信公众号/知乎/在行“hanniman”,人人都是产品经理专栏作家,前腾讯产品经理。5年人工智能实战经验,8年互联网行业背景。“人工智能产品经理”概念的推动者,被AI同行广泛传播的200页PPT的作者。关注人机交互(特别是语音交互)在手机、机器人、智能汽车、智能家居、AR/VR等前沿场景的可行性和产品体验。
本文原创发布于人人都是产品经理,未经许可,不得转载。
原创不易,欢迎赞赏(*^▽^*)
赞赏5人打赏
收藏已收藏 | 8赞已赞 | 2
前腾讯PM,现图灵机器人-人才战略官
产品经理群运营交流群求职招聘群
Axure交流群
PM要学点技术
关注微信公众号
10个回答15人关注
0个回答0人关注
8个回答27人关注
11个回答10人关注
8个回答80人关注
13个回答20人关注AlphaGo Zero问世 柯洁说人类多余了_移动互联网_扇贝网_
当前位置:
AlphaGo Zero问世 柯洁说人类多余了
编辑:米妮
浏览数:47
【科技讯】10月19日消息,谷歌是全球最伟大的公司之一,这一点毋庸置疑。就在今天,谷歌旗下的创业公司DeepMind又发布了最新产品AlphaGo Zero。没错,就是之前接连打败围棋世界冠军,李世石九段和柯洁九段的那个...“”
【科技讯】10月19日消息,谷歌是全球最伟大的公司之一,这一点毋庸置疑。就在今天,谷歌旗下的创业公司DeepMind又发布了最新产品AlphaGo Zero。没错,就是之前接连打败围棋世界冠军,李世石九段和柯洁九段的那个阿尔法狗的终极版。阿尔法狗项目首席研究员大卫·席尔瓦(不是在曼联踢球的那位)说,AlphaGo Zero是目前世界上最强大的围棋程序,超越以往所有阿尔法狗的旧版本。AlphaGo Zero轻而易举地打败了它的两个“前辈”,而且是以绝对碾压的比分。当初打败李世石的AlphaGo Lee,跟它的百局对弈比分是100:0,打败柯洁的AlphaGo Master,在它手下赢了11盘,但也输了89盘。更重要的是,AlphaGo Zero打败AlphaGo Lee,是从零开始学围棋,自学三天,便以百战百胜的成绩碾压,而打败在程序上,跟自己有很多相同之处的AlphaGo Master,只用了21天。与前几代最主要的区别在于,以前的阿尔法狗,都是先学习人类为其高手的下法,然后在逐渐转为自我对弈。而AlphaGo Zero没有用任何人类的数据,从第一局开始,便是跟自己下。对手和自己的水平不相上下,由弱及强,逐渐提升等级。
版权与免责声明:
凡未注明"稿件来源"的内容均为转载稿,本网转载出于传递更多信息的目的;如转载稿涉及版权问题,请作者联系我们,同时对于用户评论等信息,本网并不意味着赞同其观点或证实其内容的真实性;
本文地址:
转载本站原创文章请注明来源:
相关阅读:
大家喜欢看的
  【手机中国 导购】目前正值秋高气爽之际,很多小伙伴在周末都有出门远足的打算。在出门游玩的时候,相信大家一定少不了拍几张照片,这时候有些摄影爱好者就会拿出他们...
前几天Intel的第八代酷睿i7-8700K、i5-8600K正式解禁,相关的评测我们也第一时间发布了,更多核心的第八代酷睿的性能提升可谓是质的飞跃(相比第二代...
该计划将有效利用一对实体安全钥匙来取代双因素身份验证,以保护在线账号的安全。这些人士表示,公司计划将产品推广给担心安全问题的企业高管,政治家和其他名人等。去年希...
  【手机中国 新闻】今年手机行业发展的方向就是“全面屏”,对于消费者来说,这也不仅仅是屏幕变大了而已,而是各项新技术逐渐成熟的过程。全新的爆发点袭来,意味着即...
  随着苹果2017年秋季发布会的临近,很多人时刻关注着iPhone8的动态,网络上曝光了许多关于iPhone8的外观及性能,然而,大部分人最关心的还是iPho...
IDC评述网()10月23日报道:10月9日,低调的皮查伊哥接受了英国卫报的访问,在访谈期间,他分享了...
IDC评述网()10月16日报道: 美国《商业内参》网站(Business Iider)报道称,阿里...
  【手机中国 新闻】按照三星旗舰机的更新迭代周期,Galaxy Note9应该会在一年左右之后才会正式发布。不过,别看...
  10月10日消息 日前有媒体援引知情人士爆料称,bilibili(B站)计划最快明年在美国IPO,并拟通过此举筹资2...
  【手机中国 新闻】2017年的关键词除了“AI”,恐怕就是“5G”了。恰好,2017中国国际信息通信展览会也围绕着5...【21天完虐Master】AlphaGo Zero横空出世,DeepMind Nature论文解密不使用人类知识掌握围棋
【AI WORLD 2017世界人工智能大会倒计时&20&天】&大会早鸟票已经售罄,现正式进入全额票阶段。还记得去年一票难求的AI WORLD 2016盛况吗?今年,即将于日在北京国家会议中心举办的AI World 2017世界人工智能大会上,我们请到CMU教授、冷扑大师发明人Tuomas Sandholm、 百度副总裁王海峰 、微软全球资深副总裁王永东、亚马逊AWS机器学习总监Alex Smola 、科大讯飞执行总裁胡郁,华为消费者事业群总裁邵洋、腾讯优图实验室杰出科学家贾佳亚 等国内外人工智能领袖参会并演讲,一起探讨中国与世界AI的最新趋势。点击文末阅读原文,马上参会!抢票链接:/event/0?td=6大会官网:& 新智元报道&&来源:Nature;DeepMind编译:闻菲,刘小芹&【新智元导读】新智元AI World 2017世界人工智能大会倒计时进入20天,DeepMind 如约公布了他们最新版AlphaGo论文,也是他们最新的Nature论文,介绍了迄今最强最新的版本AlphaGo Zero,使用纯强化学习,将价值网络和策略网络整合为一个架构,3天训练后就以100比0击败了上一版本的AlphaGo。AlphaGo已经退休,但技术永存。DeepMind已经完成围棋上的概念证明,接下来就是用强化学习创造改变世界的价值。今年5月乌镇围棋大赛时,DeepMind CEO Hassabis 表示,将在今年晚些时候公布战胜了柯洁的那版AlphaGo的技术细节。今天,这个承诺如约兑现,DeepMind在他们最新发表于Nature的一篇论文中,描述了迄今最强大的一版AlphaGo——&AlphaGo Zero 的技术细节。AlphaGo Zero完全不依赖于人类数据,因此,这一系统的成功也是朝向人工智能研究长期以来的目标——创造出在没有人类输入的条件下,在最具挑战性的领域实现超越人类能力的算法——迈进的一大步。作者在论文中写道,AlphaGo Zero 证明了即使在最具挑战的领域,纯强化学习的方法也是完全可行的:不需要人类的样例或指导,不提供基本规则以外的任何领域知识,使用强化学习能够实现超越人类的水平。此外,纯强化学习方法只花费额外很少的训练时间,但相比使用人类数据,实现了更好的渐进性能(asymptotic performance)。在很多情况下,人类数据,尤其是专家数据,往往太过昂贵,或者根本无法获得。如果类似的技术可以应用到其他问题上,这些突破就有可能对社会产生积极的影响。是的,你或许要说,AlphaGo已经在今年5月宣布退休,但AlphaGo的技术将永存,并进一步往前发展、进化。DeepMind已经完成围棋上的概念证明,接下来,就是用他们的强化学习改变世界。这也是为什么接下来我们要介绍的这篇论文如此重要——它不仅是很多人期盼已久的技术报告,也是人工智能一个新的技术节点。在未来,它将得到很多引用,成为无数AI产业和服务的基础。迄今最强大的围棋程序:不使用人类的知识DeepMind这篇最新的Nature,有一个朴素的名字——《不使用人类知识掌握围棋》。摘要人工智能长期以来的一个目标是创造一个能够在具有挑战性的领域,以超越人类的精通程度学习的算法,“tabula rasa”(译注:一种认知论观念,认为指个体在没有先天精神内容的情况下诞生,所有的知识都来自于后天的经验或感知)。此前,AlphaGo成为首个在围棋中战胜人类世界冠军的系统。AlphaGo的那些神经网络使用人类专家下棋的数据进行监督学习训练,同时也通过自我对弈进行强化学习。在这里,我们介绍一种仅基于强化学习的算法,不使用人类的数据、指导或规则以外的领域知识。AlphaGo成了自己的老师。我们训练了一个神经网络来预测AlphaGo自己的落子选择和AlphaGo自我对弈的赢家。这种神经网络提高了树搜索的强度,使落子质量更高,自我对弈迭代更强。从“tabula rasa”开始,我们的新系统AlphaGo Zero实现了超人的表现,以100:0的成绩击败了此前发表的AlphaGo。DOI:10.1038/nature24270全新的强化学习:自己成为自己的老师DeepMind 研究人员介绍 AlphaGo Zero。视频来源:DeepMind,视频中英文字幕由Nature 上海办公室制作AlphaGo Zero&得到这样的结果,是利用了一种新的强化学习方式,在这个过程中,AlphaGo Zero 成为自己的老师。这个系统从一个对围棋游戏完全没有任何知识的神经网络开始。然后,通过将这个神经网络与一种强大的搜索算法相结合,它就可以自己和自己下棋了。在它自我对弈的过程中,神经网络被调整、更新,以预测下一个落子位置以及对局的最终赢家。这个更新后的神经网络又将与搜索算法重新组合,进而创建一个新的、更强大的 AlphaGo Zero 版本,再次重复这个过程。在每一次迭代中,系统的性能都得到一点儿的提高,自我对弈的质量也在提高,这就使得神经网络的预测越来越准确,得到更加强大的 AlphaGo Zero 版本。这种技术比上一版本的 AlphaGo 更强大,因为它不再受限于人类知识的局限。相反,它可以从一张白纸的状态开始,从世界上最强大的围棋玩家——AlphaGo 自身——学习。AlphaGo Zero&在其他方面也与之前的版本有所不同:AlphaGo Zero 只使用围棋棋盘上的黑子和白子作为输入,而上一版本的 AlphaGo 的输入包含了少量人工设计的特征。它只使用一个神经网络,而不是两个。以前版本的 AlphaGo 使用一个“策略网络”(policy network)来选择下一个落子位置和一个“价值网络”(value network)来预测游戏的赢家。这些在 AlphaGo Zero 中是联合进行的,这使得它能够更有效地进行训练和评估。AlphaGo Zero 不使用“走子演算”(rollout)——这是其他围棋程序使用的快速、随机游戏,用来预测哪一方将从当前的棋局中获胜。相反,它依赖于高质量的神经网络来评估落子位置。上面的所有这些不同之处都有助于提高系统的性能,使其更加通用。但使得这个系统更加强大和高效的是算法的改变。在进行了3天的自我训练后,AlphaGo Zero 在100局比赛中以100:0击败了上一版本的 AlphaGo——而上一版本的 AlphaGo 击败了曾18次获得围棋世界冠军的韩国九段棋士李世乭。经过 40 天的自我训练后,AlphaGo Zero 变得更加强大,超越了“Master”版本的 AlphaGo——Master 曾击败世界上最优秀的棋士、世界第一的柯洁。在经过数以百万计的 AlphaGo vs AlphaGo 的对弈后,这个系统逐渐从零开始学会了下围棋,在短短几天内积累了人类数千年积累的知识。AlphaGo Zero 也发现了新的知识,开发出非常规的策略和创造性的新下法,这些新下法超越了它在与柯洁和李世乭比赛时发明的新技巧。尽管目前仍处于早期阶段,但 AlphaGo Zero 成为了朝着这个目标迈进的关键一步。DeepMind 联合创始人兼 CEO&Demis Hassabis 评论称:“AlphaGo在短短两年里取得了如此令人惊叹的成果。现在,AlphaGo Zero是我们项目中最强大的版本,它展示了我们在更少的计算能力,而且完全不使用人类数据的情况下可以取得如此大的进展。“最终,我们希望利用这样的算法突破来帮助解决现实世界的各种紧迫问题,例如蛋白质折叠或新材料设计。如果我们能在这些问题上取得与AlphaGo同样的进展,就有可能推动人类理解,并对我们的生活产生积极影响。”AlphaGo Zero&技术细节拆解:将价值网络和策略网络整合为一个架构,整合蒙特卡洛搜索不断迭代新方法使用了一个深度神经网络&fθ,参数为 θ。这个神经网络将原始棋盘表征 s(棋子位置和历史)作为输入,输出落子概率和一个值&(p, v)= fθ(s)。落子概率向量 p 表示选择下每一步棋(包括不下)的概率。值 v 是一个标量估值,衡量当前棋手在位置 s 获胜的概率。这个神经网络将最初的 AlphaGo(下文中的 AlphaGo Fan 和 AlphaGo Lee,分别指对战樊麾和对战李世石的版本)的策略网络和价值网络整合到一个架构里,含有很多基于卷积神经网络的残差模块,这些残差模块中使用了批正则化(batch normalization)和非线性整流函数(rectifier nonlinearities)。AlphaGo Zero 的神经网络使用自我对弈数据做训练,这些自我对弈是在一种新的强化学习算法下完成的。在每个位置 s,神经网络 fθ&都会进行蒙特卡洛树搜索(MCTS)。MCTS 输出下每步棋的落子概率 π。这样搜索得出的概率通常比神经网络 fθ(s) 的原始落子概率 p 要更加强一些;MCTS 也因此可以被视为一个更加强大的策略提升 operator。系统通过搜索进行自我对弈,也即使用增强的基于 MCTS 的策略选择下哪步棋,然后使用获胜者 z 作为价值样本,这个过程可以被视为一个强有力的策略评估 operator。这一新的强化学习算法的核心思想是,在策略迭代的过程中,反复使用这些搜索& operator:神经网络的参数不断更新,让落子概率和价值 (p,v)= fθ(s) 越来越接近改善后的搜索概率和自我对弈赢家 (π, z)。这些新的参数也被用于下一次自我对弈的迭代,让搜索更强。下面的图1 展示了自我对弈训练的流程。图1:AlphaGo Zero 自我对弈训练的流程:a. 程序自己和自己下棋,标记为s1, ..., sT。在每个位置st,一个MCTS αθ被执行(见图2),使用最新的神经网络fθ。每个走子选择的依据是通过MCTS, at ~ πt计算的搜索概率。最终的位置sT根据游戏规则计算对局的最终胜者z。b. AlphaGo Zero 中神经网络的训练。该神经网络将棋盘位置st作为输入,与参数θ一起讲它传送到许多的卷积层,并同时输出表示每一走子的概率分布的向量 pt 和一个表示当前玩家在位置 st 上的赢率的标量值 vt。MCTS 使用神经网络 fθ&指导其模拟(参见图2)。搜索树中的每条边 (s, a) 都存储了一个概率先验 P(s, a),一个访问数 N(s, a),以及动作值 Q(s, a)。每次模拟都从根节点状态开始,不断迭代,选择能将置信区间 Q(s, a)+ U(s, a) 的上层最大化的落子结果,直到走到叶节点 s′。然后,网络会扩充这个叶节点,并且只进行一次评估,生成概率先验和评估值,(P(s′, ·), V(s′))= fθ(s′)。在模拟中,遍历每条边 (s, a) 后,会更新访问量 N(s, a),然后将动作值更新,取所有模拟的平均值:。MCTS 可以被看做一种自我对弈算法:给定神经网络参数 θ 和一个根节点位置 s,计算搜索概率向量推荐落子 π = αθ(s),与每步棋的访问量指数成正比,τ 是温度参数:。图2:MCTS 使用神经网络 fθ 模拟落子选择的过程示意神经网络使用这个自我对弈的强化学习算法做训练,正如上文介绍,这个算法使用 MCTS 下每一步棋。首先,神经网络使用随机权重 θ0&初始化。在随后的每一次迭代中,i ≥ 1,生成自我对弈棋谱(参见图1的a)。在每个时间步长 t,运行一个 MCTS 搜索 πt&= αθ&(st),使用上一次神经网络 fθi-1&迭代的结果,然后根据搜索概率采样下出一步棋。一局棋在第 T 步结束,也就是双方都无法落子,搜索值降低到阈值以下的时候。随后,进行计分,得出奖励 rT ∈ {-1,+1}。每一个时间步长 t 的数据都被存储为 (st, πt, zt),其中 zt = ± rT 就是从当前这步棋 t 看来最终获胜的赢家。同时(参见图1 b),使用从最后一次自我对弈迭代的所有时间步长中获取的数据& (s, π, z),对新的网络参数 θi 进行训练。调整神经网络 (p, v) = fθi (s),将预测值 v 和自我对比胜者 z 之间的误差降低到最小,同时将神经网络落子概率 p 和搜索概率 π 之间的相似度提升到最大。具体说,我们用损失函数 l 的梯度下降来调节参数 θ,这个损失函数表示如下,其中 c 是控制 L2 权重正则化水平的参数(防止过拟合):评估结果:21天就比战胜柯洁的Master更加厉害DeepMind官方博客上介绍了AlphaGo Zero与此前版本的对比。完全从零开始,3天超越AlphaGo李世石版本,21天达到Master水平。几个不同版本的计算力对比如下:论文中,为了分开结构和算法的贡献,DeepMind研究人员还比较了 AlphaGo Zero 的神经网络架构和先前与李世乭对弈时的 AlphaGo (记为 AlphaGo Lee)的神经网络架构的性能(见图4)。我们构建了4个神经网络,分别是在 AlphaGo Lee 中使用的分开的策略网络和价值网络,或者在 AlphaGo Zero 中使用的合并的策略和价值网络;以及 AlphaGo Lee 使用的卷积网络架构,或 AlphaGo Zero 使用的残差网络架构。每个网络都被训练以最小化同一个损失函数(公式1),训练使用的是 AlphaGo Zero 在72小时的自我对弈之后产生的同一个自我对弈棋局数据集。使用残差网络的准确率更高,误差更低,在 AlphaGo 达到600 Elo(等级分)的性能提高。将策略(policy)和价值(value)结合到一个单一的网络中的话,走子预测的准确性略微降低了,但是价值错误也降低了,并且将 AlphaGo 的性能再提高了600 Elo。这在一定程度上是由于提高了计算效率,但更重要的是,双目标使网络成为支持多个用例的常规表示。图4:AlphaGo Zero 和 AlphaGo Lee 的神经网络架构比较。使用分开的策略和价值网络记为(sep),使用组合的策略和价值网络记为(dual),使用卷积网络记为(conv),使用残差网络记为(res)。“dual-res”和“sep-conv”分别表示在 AlphaGo Zero 和 AlphaGo Lee 中使用的神经网络架构。每个网络都在同一个数据集上训练,该数据集由 AlphaGo Zero 的自我对弈产生。a,每个训练好的网络都与 AlphaGo Zero 的搜索相结合,以得到一个不同的玩家。Elo等级分是由这些不同玩家之间的评估游戏计算得到的,每一步棋有5秒的思考时间。b,对每个网络架构的职业棋手的走法(从GoKifu数据集得来)的预测准确性。c,每个网络架构的人类职业棋手的棋局结果(从GoKifu数据集得来)的MSE。AlphaGo Zero学到的知识。a,AlphaGo Zero训练期间发现的五个人类定式(常见的角落序列)。b)自我对弈中爱用的5个定式。c)在不同训练阶段进行的3次自我对弈的前80步棋,每次搜索使用1,600次模拟(约0.4s)。最开始,系统关注夺子,很像人类初学者。而后,关注势和地,也即围棋根本。最后,整场比赛体现出了很好的平衡,涉及多次战斗和一场复杂的战斗,最终以白棋多半子获胜。AlphaGo 小传姓名:AlphaGo(Fan,Lee,Master,Zero)别名:阿老师,阿尔法狗生日:2014年出生地:英国伦敦1击败樊麾2015年10月,AlphaGo击败樊麾,成为第一个无需让子即可在19路棋盘上击败围棋职业棋手的电脑围棋程序,写下了历史,相关成果在2016年1月发表于Nature2击败李世石2016年3月,AlphaGo在一场五番棋比赛中4:1击败尖端职业棋手李世石,成为第一个不借助让子而击败围棋职业九段棋手的电脑围棋程序,再创历史。五局赛后韩国棋院授予AlphaGo有史以来第一位名誉职业九段3排名短暂超越柯洁日,AlphaGo在Go Ratings网站的排名升至世界第一。但几天之后被柯洁反超。4化名“Master”横扫棋界2016年底至2017年年初,再度强化的AlphaGo以“Master”为名,在未公开其真实身份的情况下,借非正式的网络快棋对战进行测试,挑战中韩日台的一流高手,60战全胜5战胜柯洁,成为世界第一至27日乌镇围棋峰会,最新的强化版AlphaGo和世界第一棋手柯洁对局,并配合八段棋手协同作战与对决五位顶尖九段棋手等五场比赛,获取3比零全胜的战绩,团队战与组队战也全胜。这次AlphaGo的运算资源消耗仅李世石版本的十分之一。在与柯洁的比赛结束后,中国围棋协会授予AlphaGo职业围棋九段的称号AlphaGo在没有人类对手后,日,AlphaGo之父杰米斯·哈萨比斯宣布AlphaGo退役。AlphaGo的研究计划于2014年开始,从业余棋手的水平到世界第一,AlphaGo的棋力获取这样的进步,仅仅花了两年左右。AlphaGo虽已退休,但技术永存。谨以此文,致敬AlphaGo,以及研发AlphaGo的人。对AI来说,德州扑克是比围棋更难的游戏!新智元世界人工智能大会邀请到战胜了人类德扑职业玩家的“冷扑大师”Libratus发明人CMU教授Tuomas Sandholm,想深入了解AI 技术最新进展?点击“阅读原文”,马上抢票!【AI WORLD 2017世界人工智能大会倒计时&20&天】点击图片查看嘉宾与日程。大会门票销售火热,抢票链接:/event/0?td=6【扫一扫或点击阅读原文抢购大会门票】AI WORLD 2017 世界人工智能大会购票二维码:&

我要回帖

更多关于 莫干山极限探索公园 的文章

 

随机推荐