最强版AlphaGo40天登顶bbox世界冠军军是什么情况?

阿尔法狗新版本问世 自学40天能胜赢柯洁的版本
关键字: 人工智能阿尔法狗新版本AlphaGo Zero自学40天能胜赢柯洁的版本
【观察者网综合】谷歌子公司DeepMind当地时间10月18日发布了一款新版本的AlphaGo程序,它能通过自学玩转多种游戏。这套系统名为“AlphaGo Zero”,它通过一种名为“强化学习”的机器学习技术,可以在与自己游戏中吸取教训。
DeepMind网站截图
该公司表示,AlphaGo Zero的研发与其前身有很大不同。研究团队不是根据已知的人类发展战略使AI智能化,而是经过短暂的训练使软件能够轻松击败此前的版本。 AlphaGo Zero能不断更新自己的游戏知识,越来越好。
据Deepmind介绍,AlphaGoZero采用了新的强化学习方法,从一个不知道围棋游戏规则的神经网络开始,然后通过将这个神经网络与强大的搜索算法结合,然后就可以实现自我对弈了。在这样的训练过程中,神经网络被更新和调整,并用于预测下一步落子和最终的输赢。
这一更新后的神经网络将再度与搜索算法组合,这一过程将不断重复,创建出一个新的、更强大版本的AlphaGoZero。在每次迭代中,系统的性能和自我对弈的质量均能够有部分提高。“日拱一卒,功不唐捐”,最终的神经网络越来越精确,AlphaGoZero也变得更强。
经过三天的不间断比赛,Zero能够击败去年已经战胜人类围棋世界冠军的AlphaGo版本。后者是去年击败了韩国选手李世石(Lee Sedol)的DeepMind软件。经过大约40天的训练(约2900万场自玩游戏),AlphaGo Zero击败了AlphaGo Master(今年早些时候击败了世界冠军柯洁)。事实上,AlphaGo Zero连续赢得了100场比赛,取得全胜战绩。
请支持独立网站,转发请注明本文链接: 责任编辑:于文凯柯洁回应新版本AlphaGo问世:人类太多余了
导语:柯洁回应称:“一个纯净、纯粹自我学习的alphago是最强的,对于alphago的自我进步来讲,人类太多余了。”
DeepMind今天发布了一款新版本的AlphaGo程序,经过三天的训练,该系统能够击败AlphaGoLee,后者是去年击败了韩国选手李世石(LeeSedol)的DeepMind软件,胜率是100比0。经过大约0天的训练(约2900万场自玩游戏),AlphaGoZero击败了AlphaGoMaster(今年早些时候击败了世界冠军柯洁)。对此,柯洁回应称:“一个纯净、纯粹自我学习的alphago是最强的...对于alphago的自我进步来讲...人类太多余了。”伦敦当地时间10月1日18:00(北京时间19日01:00),旗下的DeepMind团队公布了进化后的最强版AlphaGo,代号AlphaGoZero。新版本的AlphaGo究竟有多厉害?打败李世石的AlphaGo用了3000万盘比赛作为训练,AlphaGoZero用了490万盘比赛数据。经过3天的训练,AlphaGoZero就以100:0的比分完胜对阵李世石的那版AlphaGo。DeepMind联合创始人兼CEO、AlphaGo之父戴密斯·哈萨比斯(DemisHassabis)和AlphaGo团队负责人大卫·席尔瓦(DaveSliver)等人同时在官方博客上发表文章,详解最强版本阿尔法狗是如何炼成的,与前代有何不同。哈萨比斯与学习大量人类棋谱起步的前代AlphaGo不同,AlphaGoZero是从“婴儿般的白纸”开始,通过3天数百万盘自我对弈,走完了人类千年的围棋历史,并探索出了不少横空出世的招法。
艾瑞网是艾瑞集团旗下新经济门户网站,为用户提供互联网数据资讯聚合平台。
第一时间获取最新行业数据、研究成果、产业报告、活动峰会等信息。
我们有直面错误的勇气,点击按钮即可发言。
您也可以邮件:比佐为更强大 谷歌即将揭秘AlphaGo思路_网易数码
比佐为更强大 谷歌即将揭秘AlphaGo思路
用微信扫码二维码
分享至好友和朋友圈
(原标题:比佐为更强大 谷歌即将揭秘AlphaGo思路)
第1页:AlphaGo到底什么样?在公众视线中,AlphaGo自从下完了与李世石的五盘棋之后就消失了。但事实上没那么简单,再过不久,AlphaGo及Deepmind团队通过与世界冠军古力、周鹤洋合作的方式,将通过发布新网站,来详解与李世石的五盘棋及AlphaGo自己对弈的三盘精选棋谱,用可视化的方式加入了AlphaGo在对弈过程中的分析及数据。或许今天的AlphaGo,要比动漫里面的Sai(佐为)更强大。&AlphaGo到底长什么样?前几个月科技界的媒体已经公布了AlphaGo的机器,由几个机架组成,在自然杂志公布的棋力上,这种分布式计算的AlphaGo有1920个CPU核心和280个GPU。不过看第二张图,谷歌的深度学习用的处理单元是定制的,那个螺丝显得工艺不是那么精致。就是这个机器,用更好的深度学习的方法和强大的计算能力,战胜了世界等级分第三的李世石九段。这个单元名字叫“张量处理单元”,(Tensor&Processing&Unit,TPU)。因此AlphaGo到底能否有个X86的版本,是未来的疑问。谷歌AlphaGo机器的真身谷歌定制的TPU,并非我们传统的服务器架构,对机器学习进行了专门的优化古力九段的微博,感慨AlphaGo的强大之前公众只是知道AlphaGo下围棋非常厉害,能赢世界冠军李世石就很说明问题。但是AlphaGo是如何思考的?这才是问题的关键。而即将放出的棋谱,则通过非常好的可视化形式,展现出来AlphaGo在对局过程中,机器认为李世石应该走的位置,并对其进行更深层次的计算。这次的研究员古力九段曾经发微博感慨过人工智能已经精进到了如此程度!人机大战第五盘在人类觉得李世石稍好的时候,机器判断自己胜率一直在上升有意思的是界面里面还会有AlphaGo对输赢的判断,即在后台的胜率分析,这个分析的准确性很高,因为结果也是随着胜率的一路走高,李世石出现了投子认负(当然第四盘出了bug是个意外,现在Deepmind团队表示更多训练之后已经没了这个问题)。有意思的是用户可以结合当时的各路直播来看当时人类的分析,与机器分析进行对比。比如第五盘,右下角下完之后感觉AlphaGo送了几个子,人类的高手普遍判断是形势上执黑的李世石稍好,但是机器的后台判断那时候AlphaGo的胜率是一直领先的,因为有一路爬回的手段。&AlphaGo自我对弈的棋谱,15秒一步,全是中腹的战斗更为可怕的是此次Deepmind团队放出了三个机器自我对弈的棋谱,设定的机器每一步思考只有15秒的时间,但是从公布的棋谱看,似乎非常深奥,只能期待古力与周鹤洋这两位九段高手的理解了,因为对于AlphaGo,现在人类的棋艺已经难以企及它的高度,只能是从既有的围棋知识去做判断。[#zolsplit_qrcodea二维码区域分隔符开始#][#zolsplit_qrcodeb二维码区域分隔符结束#]欢迎扫码关注我们的公众号生活科技新知(lifeintech),上面会有很多独到内容哟!
第2页:AlphaGo登陆网络围棋AlphaGo登陆网络围棋是第二次人机大战要开始了吗?并不是。而是谷歌的Deepmind团队,在对弈网站gokgs上,设置了一个对弈机器人!这个机器人不是别人,正是大名鼎鼎的AlphaGo!AlphaGo登陆网络对弈平台GoKGS,名字叫AlphaGoBot不过现在还都只是一些测试工作,并且工程师Aja黄,就是人机大战坐在李世石对面的那位Deepmind团队的人,在平台里面解释这只是做一些测试,没有谷歌的许可,是不可以开放这个AlphaGo机器人和KGS上的棋手对弈的,当然不止KGS,Deepmind团队在多个围棋对弈平台都布置有机器人。单机版、V20的AlphaGo到底会有多强?这需要谷歌的允许才会揭晓答案相比之下,这个对弈的机器人与几个月前人机大战的AlphaGo并不一样,是单机版的,CPU、GPU要少得多,因此搜索的线程更少,按理说棋力应该稍差,可问题是,这个版本和当时不同,当时李世石对弈的版本是V18,而这个是V20,也就是进化了两代,根据Deepmind团队的说法,如果一个版本的胜率对上一个版本要达到90%,才会被标注为一个全新版本,这已经进化了两次的V20到底有多强的棋力?相信一旦能正式上线与人对弈,全世界各路顶级职业棋手一定会排队与之对弈。
第3页:可能的大新闻可能的大新闻今年3月的时候,谷歌来了中国,包括CEO皮查伊,也见了中国棋院的人以及棋圣聂卫平。这在当时让人产生联想,甚至一度传出来今年晚些时候在海南举办柯洁与AlphaGo的人机大战!世界排名第一VS&AlphaGo!三月的时候谷歌的CEO访华,特意与中国围棋界见了面,图片来自古力微博然而现在看这场比赛或许要泡汤,因为聂卫平这两天接受采访透露出来的意思是,人类棋手根本下不赢AlphaGo,绑一块一起下也下不赢,很可能就是非正式的打了退堂鼓。当然笔者是看热闹不嫌事儿大,当然希望有第二次人机大战。因为唯有如此,才能看看进化到V20或是更高版本的分布式AlphaGo到底强悍到了什么程度,人类最强的柯洁到底能不能赢,能赢几盘?当年国际象棋领域的人机大战其实围棋输了也没什么,中国象棋的电脑软件甚至让人一马也能赢,是人和电脑学习新套路,国际象棋卡斯帕罗夫输了两次之后,国际象棋界已经彻底服气,现在人根本下不过电脑。而到了围棋这里怎么就不肯正式的下一盘,输了也是人类智慧的胜利。人类普遍的共识是职业围棋早晚输给电脑,只是没想到居然这么快,这是难以承受的地方。人机大战AlphaGo在右下角脱先在上面还原成中国流布局,颠覆了以往局部定式的认知
其实我反而觉得,围棋不可能像象棋、国际象棋那样容易的被穷举,因此AlphaGo的算法如果越强,那么人与之学习进步的空间也就越大,反而是推动人类围棋进步,比如很多定式机器改了走法,再比如对形势的判断等等,会产生大量根本性的理念与认知上的变革。围棋无止境,机器带着人加速进步难道是坏事吗?
本文来源:中关村在线
责任编辑:"王晓易_NE0011"
用微信扫码二维码
分享至好友和朋友圈
加载更多新闻
热门产品:   
:        
:         
热门影院:
阅读下一篇
用微信扫描二维码
分享至好友和朋友圈AlphaGo离奇招法是手滑?世界冠军:滑得也太远了_网易体育
AlphaGo离奇招法是手滑?世界冠军:滑得也太远了
用微信扫码二维码
分享至好友和朋友圈
(原标题:AlphaGo离奇招法是手滑?世界冠军:滑得也太远了)
本报讯 1月20日晚,AlphaGo团队的樊麾发布了一篇长微博,就不久前在网上进行的60局测试棋的两盘“离奇招法”发布公告,称是因为操作员摆错位置所致。但这种说法遭到了一些棋迷和棋手的质疑,因为其中一盘棋,一般摆错棋子的位置大都是在附近,而公告中说的一步摆错的位置和AlphaGo想下的位置横跨大半个棋盘,令人费解。昨天,中国职业九段棋手唐韦星发布微博表示对此事的疑惑,并猜测此事可能并非操作员摆错了这么简单。
唐韦星在微博中称,AlphaGo本应该在左下提掉白子,但操作者不小心滑标走了右上角?“我昨天想了想,还是觉得这个图应该不是什么操作失误。因为操作失误一般来说有两种可能,一是滑标(点错),这图大家觉得滑标刚好滑到这里的可能有多大呢?为什么没滑到别的地方去?另外一个失误倒是有可能是滑标,滑出一个天马行空的跳,就算不滑到,跳滑到别处也可以。但这个滑标还刚刚是这里,可能也太小了。倒是第二盘有问题棋,有可能是操作人员的想当然,就点鼠标上去了。”唐韦星认为黄士杰博士操作经验丰富,不大应该会自作主张,就算黄博士自作主张,以一般人的思维来看,也应该是提子(如果不提将会被反提)。“如果说AlphaGo是打,黄博士下提我还相信,反过来我就不太信了。除了这两种我认为不应该在这里出现的失误之外,我暂时想不出别的失误了。”
唐韦星大胆猜测,AlphaGo可能就是有一定失误。“我对AlphaGo不清楚,目前看来它比我强。我只是从如果出现操作失误的可能去考虑的,我认为常见的操作失误不应该会这样。不知道黄博士可以讲讲到底是什么操作失误吗?以我所能理解的操作失误我认为不应该会这样。我在这只是谈谈自己的看法。”
唐韦星,1993年出生,贵州省贵阳市人。中国围棋职业棋手,13岁(2006年)入段,20岁(2013年12月)战胜韩国著名棋手李世石夺得第18届三星杯世界围棋公开赛冠军,并凭此由三段直升九段。
本文来源:中国新闻网
责任编辑:王晓易_NE0011
用微信扫码二维码
分享至好友和朋友圈
加载更多新闻
热门产品:   
:        
:         
热门影院:
阅读下一篇
用微信扫描二维码
分享至好友和朋友圈阿尔法狗再进化:自学3天打败旧版AlphaGo 最强阿尔法狗诞生有什么意义_科技前沿_海峡网
您现在的位置:&&&
伦敦当地时间10月18日18:00(北京时间19日01:00),AlphaGo再次登上世界顶级科学杂志&&《自然》。
一年多前,AlphaGo便是日当期的封面文章,Deepmind公司发表重磅论文,介绍了这个击败欧洲围棋冠军樊麾的人工智能程序。
今年5月,以3:0的比分赢下中国棋手柯洁后,AlphaGo宣布退役,但DeepMind公司并没有停下研究的脚步。伦敦当地时间10月18日,DeepMind团队公布了最强版AlphaGo ,代号AlphaGo Zero。它的独门秘籍,是&自学成才&。而且,是从一张白纸开始,零基础学习,在短短3天内,成为顶级高手。
团队称,AlphaGo Zero的水平已经超过之前所有版本的AlphaGo。在对阵曾赢下韩国棋手李世石那版AlphaGo时,AlphaGo Zero取得了100:0的压倒性战绩。DeepMind团队将关于AlphaGo Zero的相关研究以论文的形式,刊发在了10月18日的《自然》杂志上。
&AlphaGo在两年内达到的成绩令人震惊。现在,AlphaGo Zero是我们最强版本,它提升了很多。Zero提高了计算效率,并且没有使用到任何人类围棋数据,&AlphaGo之父、DeepMind联合创始人兼CEO 戴密斯&哈萨比斯(Demis Hassabis)说,&最终,我们想要利用它的算法突破,去帮助解决各种紧迫的现实世界问题,如蛋白质折叠或设计新材料。如果我们通过AlphaGo,可以在这些问题上取得进展,那么它就有潜力推动人们理解生命,并以积极的方式影响我们的生活。&
不再受人类知识限制,只用4个TPU
AlphaGo此前的版本,结合了数百万人类围棋专家的棋谱,以及强化学习的监督学习进行了自我训练。
在战胜人类围棋职业高手之前,它经过了好几个月的训练,依靠的是多台机器和48个TPU(谷歌专为加速深层神经网络运算能力而研发的芯片)。
AlphaGo Zero的能力则在这个基础上有了质的提升。最大的区别是,它不再需要人类数据。也就是说,它一开始就没有接触过人类棋谱。研发团队只是让它自由随意地在棋盘上下棋,然后进行自我博弈。值得一提的是,AlphaGo Zero还非常&低碳&,只用到了一台机器和4个TPU,极大地节省了资源。
AlphaGo Zero强化学习下的自我对弈。
经过几天的训练,AlphaGo Zero完成了近5百万盘的自我博弈后,已经可以超越人类,并击败了此前所有版本的AlphaGo。DeepMind团队在官方博客上称,Zero用更新后的神经网络和搜索算法重组,随着训练地加深,系统的表现一点一点地在进步。自我博弈的成绩也越来越好,同时,神经网络也变得更准确。
AlphaGo Zero习得知识的过程
&这些技术细节强于此前版本的原因是,我们不再受到人类知识的限制,它可以向围棋领域里最高的选手&&AlphaGo自身学习。& AlphaGo团队负责人大卫&席尔瓦(Dave Sliver)说。
据大卫&席尔瓦介绍,AlphaGo Zero使用新的强化学习方法,让自己变成了老师。系统一开始甚至并不知道什么是围棋,只是从单一神经网络开始,通过神经网络强大的搜索算法,进行了自我对弈。
随着自我博弈的增加,神经网络逐渐调整,提升预测下一步的能力,最终赢得比赛。更为厉害的是,随着训练的深入,DeepMind团队发现,AlphaGo Zero还独立发现了游戏规则,并走出了新策略,为围棋这项古老游戏带来了新的见解。
自学3天,就打败了旧版AlphaGo
除了上述的区别之外,AlphaGo Zero还在3个方面与此前版本有明显差别。
AlphaGo-Zero的训练时间轴
首先,AlphaGo Zero仅用棋盘上的黑白子作为输入,而前代则包括了小部分人工设计的特征输入。
其次,AlphaGo Zero仅用了单一的神经网络。在此前的版本中,AlphaGo用到了&策略网络&来选择下一步棋的走法,以及使用&价值网络&来预测每一步棋后的赢家。而在新的版本中,这两个神经网络合二为一,从而让它能得到更高效的训练和评估。
第三,AlphaGo Zero并不使用快速、随机的走子方法。在此前的版本中,AlphaGo用的是快速走子方法,来预测哪个玩家会从当前的局面中赢得比赛。相反,新版本依靠地是其高质量的神经网络来评估下棋的局势。
AlphaGo几个版本的排名情况。
据哈萨比斯和席尔瓦介绍,以上这些不同帮助新版AlphaGo在系统上有了提升,而算法的改变让系统变得更强更有效。
经过短短3天的自我训练,AlphaGo Zero就强势打败了此前战胜李世石的旧版AlphaGo,战绩是100:0的。经过40天的自我训练,AlphaGo Zero又打败了AlphaGo Master版本。&Master&曾击败过世界顶尖的围棋选手,甚至包括世界排名第一的柯洁。
对于希望利用人工智能推动人类社会进步为使命的DeepMind来说,围棋并不是AlphaGo的终极奥义,他们的目标始终是要利用AlphaGo打造通用的、探索宇宙的终极工具。AlphaGo Zero的提升,让DeepMind看到了利用人工智能技术改变人类命运的突破。他们目前正积极与英国医疗机构和电力能源部门合作,提高看病效率和能源效率。
本文来源:【澎湃新闻】版权归原作者所有
责任编辑:金林舒
一周热点新闻
下载海湃客户端
关注海峡网微信
职业道德监督、违法和不良信息举报电话:4 举报邮箱:
本站游戏频道作品版权归作者所有,如果侵犯了您的版权,请联系我们,本站将在3个工作日内删除。
温馨提示:抵制不良游戏,拒绝盗版游戏,注意自我保护,谨防受骗上当,适度游戏益脑,沉迷游戏伤身,合理安排时间,享受健康生活。
CopyRight (C)2016 海峡网(福建日报主管主办) 版权所有 闽ICP备号-2
福建日报报业集团拥有海峡都市报(海峡网)采编人员所创作作品之版权,未经报业集团书面授权,不得转载、摘编或以其他方式使用和传播。
友情链接: |

我要回帖

更多关于 we世界冠军比赛视频 的文章

 

随机推荐