围棋阿尔法狗围棋教学工具和德扑冷扑大师:哪个更厉害,哪个更

继阿尔法狗登顶“棋王”之后 人工智能“扑克牌手”杀过来了-ZAKER新闻
华尔街见闻
在 AlphaGo(阿尔法狗)冲进围棋世界,疯狂碾压人类高手之后,人工智能(AI)又杀入了新的领域——德州扑克。卡内基梅隆大学研发了一款名为 " 冷扑大师 " 的扑克比赛机器人。在近日于中国海南举行的德州扑克人机大战中,历经五天的比赛和 36000 手对阵之后," 冷扑大师 " 最终以 792,327 的筹码获胜,赢得了 29 万美元的奖金。" 冷扑大师 " 的对手方是名为龙之队的人类德扑牌手。这支队伍是由 2016 年世界德州扑克大赛 WSOP 金手链获得者、前人人网副总裁杜悦领头,组员有许朝军、张淮、童舟、朱亚希等六位资深华人德扑牌手。这并非机器人首次赢得德扑比赛的胜利。" 冷扑大师 " 的前身是 Libratus,这款机器人曾于 1 月在匹兹堡的 120000 手无上限德扑一对一比赛中击败四名顶级扑克玩家,赢得 170 万筹码,每百手胜率超过 14 个大盲。去年,另一个叫作 DeepStack 的扑克机器人在与 11 名人类玩家的无限注德扑一对一对战中,打败了 10 人。这个 AI 机器人由阿尔伯塔大学、布拉格捷克理工大学和布拉格查理大学的计算机科学家们联合研制。" 冷扑大师 " 创造者之一、卡内基梅隆大学计算机科学教授 Tuomas Sandholm 说:" 我希望探索人工智能在扑克以及其他应用领域里各种不同的商业机会。"" 冷扑大师 " 与 AlphaGo 的异同从技术角度来说,德扑与围棋不同之处在于,围棋是 " 完全信息博弈 ",通过观察棋盘,就能立刻知道博弈所处的完整状态。而德扑则是一种 " 不完全信息博弈 "。和人类一样," 冷扑大师 " 在翻牌前只能看到自己的牌,它必须自己算牌,根据出牌序列、对手风格、对手位置和筹码深度等等因素来反推对手手中的牌,从而计算各自的胜率。而且,在德扑比赛中,运气是个关键因素。杜悦评价道:" 冷扑大师的出牌全部基于科学的计算。而且,冷扑大师永远理性。不能保持头脑冷静却是人类选手的最大缺陷。"海南人机大战发起者、创新工场董事长兼 CEO 李开复表示,和人工智能玩德州扑克,人类代表队预期的胜算率是 10%。正如与 AlphaGo 对阵的李世石所说," 人会有心理上的摇摆,即使知道准确的答案,在下子那一刻还是有可能会选择另一条路, 考虑其他的选择。但 AlphaGo 不会有任何动摇,这就是我所面对的最大困难。"李世石甚至表示:" 面对毫无感情的对手是非常难受的事情,这让我有种再也不想跟它比赛的感觉。" 他承认,如果再有机会跟 AlphaGo 对弈,情况一定也会非常艰难。德扑 AI 技术尚未成熟目前来看,虽然 AlphaGo 在围棋界已经算得上大师级别,但能够对弈扑克的 AI 技术还远谈不上成熟。杜悦表示,必须弄清楚的是,龙之队和冷扑大师的对战形式是一对一,最后计算累计成绩。在现实生活中,徳扑是多人游戏,而眼下 AI 还玩不转多人形式。" 跟单挑相比,多人游戏在计算复杂度上不是一个量级的,而是指数级的增长。所以,在可预见的未来,我们应该不会看到最顶尖的机器人在多人桌上出现。"但他同时还称,人工智能一旦能够战胜人类顶级玩家,就证明它的理论和模型是对的,在成熟的 AI 面前," 人类没有丝毫的胜算 " 。" 人工智能的到来不可避免。人机共存时代,人类会和机器互相帮助,也会互相竞争。"(左二为杜悦)(更多精彩财经资讯, )
相关标签:
原网页已经由 ZAKER 转码排版
财经新闻7小时前
财经新闻6小时前
财经新闻4小时前
财经新闻3小时前
财经新闻4小时前
华尔街见闻3小时前
第一财经2小时前
股票频道4小时前
华尔街见闻7小时前
华尔街见闻7小时前
华尔街见闻7小时前
财经新闻6小时前
财经新闻9小时前
财经新闻昨天
财经新闻昨天德州扑克人工智能之父:阿尔法狗赢不赢都缺实际用处
来源:澎湃新闻
原标题:德州扑克人工智能之父:赢不赢柯洁,阿尔法狗都缺乏实际用处
  人机对战无疑是4月10日的新闻焦点之一。一边在海南澄迈,德州扑克人工智能“冷扑大师”(Libratus)经过5日激战,在33000手一对一无限注德扑比赛中完胜中国“龙之队”的6名高手,斩获200万人民币奖金;另一边在北京的中国棋院,谷歌宣布被中国网民称为“阿尔法狗”的围棋人工智能AlphaGo将在5月下旬的乌镇对阵柯洁领衔的中国顶尖棋手,上演终极一战。
  一南一北,一牌一棋,两则人机对战重磅消息在同一天出炉,虽然未必是有意针锋相对,但也足够令无心的观众相互比较。有些读者认为,连围棋这样高深的智力运动都早已被阿尔法狗拿下,扑克这样门槛低、上手简单的大众娱乐又何足挂齿呢?但反方则指出,扑克不是单纯靠计算的游戏,牵扯到很多心理上的博弈,有时甚至需要“飙演技”,AI能掌握这类游戏有些匪夷所思。
  那么,德扑和围棋这两种智力游戏,对AI来说到底有什么区别?哪个难度更大一些?针对这些问题,澎湃新闻(www.thepaper.cn)就冷扑大师和阿尔法狗的相关资料进行了梳理与比较。
托马斯? 桑德霍姆(Tuomas Sandholm) 资料图
  不过,冷扑大师的开发者、美国卡内基梅隆大学(CMU)计算机系教授托马斯? 桑德霍姆(Tuomas Sandholm)在听到阿尔法狗将来华挑战的消息后,评价非常的简单:问题的关键并不在于中国顶尖棋手能不能赢,而在于生活中几乎不存在像围棋这样的“完美信息游戏”,因而阿尔法狗也缺乏实用场景。
  围棋和德扑对于AI来说,性质是不是一样的?
  自1988年CMU开发的“奥赛罗”程序击败世界黑白棋冠军以来,人类就在棋类游戏上节节败退。1997年,IBM的计算机“深蓝”击败了国际象棋棋坛神话卡斯帕罗夫,使人机对战在当时达到了舆论高峰,其影响力绝不亚于去年阿尔法狗击败韩国棋手李世石。
  计算机程序攻克这些棋类游戏的方法在本质上是一样的:搜索。下每一步棋都是一个决策点,在决策点上分化出不同的可能性,而整盘棋也就形成了一棵不停分叉的决策树。而计算机所做的,就是在每一个决策点上搜索胜率最大的那条路径。
  因而难度主要取决于决策点的数量。决策点越多,搜索难度自然越大。黑白棋的搜索量只有10的十几次方,国际象棋是10的四十几次方,而围棋的搜索量达到了惊人的10的170次方。
  不过,也正因为围棋的搜索量太大,完全精确的结果是不可能得到的。因而,阿尔法狗在蒙特卡洛树搜索算法(Monte Carlo Tree Search)的基础上,结合走棋网络(Policy Network)、快速走子(Fast rollout)和价值网络(Value Network)进行预测和评估,得到尽可能接近最优的解。虽然阿尔法狗这个过程中做出了巨大突破,但它本质上还是在搜索。
  德州扑克与棋类完全不同。围棋是一种“完美信息游戏”,场面上所有的情况都黑白分明地摆在棋面上,双方掌握对等的信息。然而,德扑中隐藏了很多信息,是一种“非完美信息游戏”。玩家不知道对手手中是什么牌,不知道五张公共牌会开出怎样的结果,也不知道对手猜测自己握有怎样的手牌。
  因此,虽然一盘德扑的决策点数量是10的160次方,要少于围棋,但光靠搜索是打不了德扑的。德扑由此跳出了在搜索量上的较量,对AI提出了另一个方向上的考验:应对隐藏的信息。
  阿尔法狗和冷扑大师的原理有何不同?
  谷歌曾在《自然》杂志上发表文章,公布阿尔法狗的几个基本原理,分别为:走棋网络(Policy Network),给定当前局面,预测和采样下一步的走棋;快速走子(Fast rollout),在适当牺牲走棋质量的条件下提高速度;价值网络(Value Network),给定当前局面,估计双方胜率;蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),把以上三个部分串联成一个完整的系统。
  冷扑大师的算法则主要基于以下三个模块产生:
  首先,纳什均衡是德扑算法的核心,即AI的目标是找到一个无论对方怎么做,自己都不会产生损失的策略。根据博弈论,像一对一扑克这种零和游戏永远存在这样的最优解,就像在经典的博弈论模型“囚徒困境”中,招认罪行就是一个无论对方招认不招认都最优的策略。因此,冷扑大师的开发团队提前在庞大的决策树上利用虚拟遗憾最小化算法(Counterfactual Regret Minimization,CFR)推算出了均衡,即通过多次迭代计算博弈树中每个信息集的动作遗憾值和平均策略值,预测下一时刻的决策动作,使其是当前最小遗憾动作。
  此外,冷扑大师还有残局解算器(end-game solver)和自我强化学习这两个模块来辅助第一个模块。残局解算器会在残局时实时评估场上的情况,以判断第一模块中算出的纳什均衡是否符合实时情况。而自我强化学习会反思AI在比赛中的表现,找出曾被人类利用过的“套路”,清除这些可循的痕迹。
  总体来说,阿尔法狗和冷扑大师的算法有三大明显不同。
  第一,阿尔法狗的训练过程中用到了大量数据的深度学习,即通过大量给定的输入和输出形成稳定的处理。但计算机的处理过程本身是一个黑匣子。而冷扑大师没有用到时髦的深度学习,而是通过传统的线性规划提前算出纳什均衡,是一个“老式但好用的人工智能”(Good Old-Fashioned Artificial Intelligence)。
  第二,阿尔法狗在深度学习过程中参考了数千万张人类棋谱,可以说是靠模仿人类高手起步的。虽然阿尔法狗也运用到了一些自我强化学习,但比重并不大。而冷扑大师完全是通过自我强化学习进行训练的。开发者从未教给它人类打牌的方法,只是向它描述了德扑的规则,由它“左右互搏”,摸索出德扑应该怎么玩。因而,冷扑大师的打法完全脱离了人类经验。值得注意的是,即将与柯洁在乌镇对战的阿尔法狗2.0将摈弃人类棋谱,完全采用一套自我摸索出来的下法。
  第三,虽然阿尔法狗和冷扑大师都特别喜欢残局阶段下杀招,但它们的难度不一样。围棋下到残局,可走的招数越来越少,计算量也越来越简单;而德扑开到转牌和河牌时,可能性更多,局面变得更为复杂。因此,冷扑大师经常在转牌阶段做出长时间的停顿。
  阿尔法狗和冷扑大师哪个更有用?
  在冷扑大师的开发者、美国卡内基梅隆大学(CMU)计算机系教授托马斯? 桑德霍姆(Tuomas Sandholm)和其博士生诺姆? 布朗(Noam Brown)看来,这个问题的答案十分明显。在现实生活中,几乎不存在像围棋这样给出所有信息的完美情境,因而像阿尔法狗这样的算法也很难直接派上用场。
  在现实生活中,我们遇到的事情会更像玩德扑:商业谈判时对方未知的底牌、房屋拍卖时竞争对手难测的举动、股票交易中一些隐藏的内部消息。桑德霍姆认为,德扑AI打开了靠人工智能解决随机事件和隐藏信息的大门。这样的AI,才有望离开虚拟的棋牌世界,成为人类在现实生活中谈判、博弈和投资的好帮手。
  桑德霍姆自己就成立了一家战略计算公司,希望利用人工智能解决金融上的一些战略计算问题。首先,金融交易拼的是速度,AI在量化交易上具有巨大优势。其次,像股票交易中经常会存在一些隐藏的信息,AI能在交易者较少的情况下,帮助人类在隐藏的信息面前做出决策。
  阿尔法狗和冷扑大师哪个更厉害?
  诺姆? 布朗说道,每一种游戏从计算机科学的角度来说,都存在一些核心问题,而掌握这个游戏的AI相当于解决了这个核心的问题。围棋和德扑代表了两类完全不同的游戏,阿尔法狗和冷扑大师也在朝完全不同的两个方向探索。
  只不过,围棋在“完美信息游戏”中属于高难度水平,因而阿尔法狗也在搜索这个核心问题上取得了巅峰成就。而冷扑大师刚刚打开了“非完美信息游戏”的大门,对于解决隐藏信息这个问题来说,德扑AI只是个开始。光就游戏而言,与德扑类似的奥马哈,就比德扑更为复杂一些。布朗说,他们对中国的麻将略知一二,麻将也是一种充满了隐藏信息的游戏。
(责任编辑:郑江 UN988)
&&&&&&</div
中国人哪来这么多钱?[]
客服热线:86-10-
客服邮箱:从阿尔法狗到冷扑大师,从围棋到德扑,AI普及还有多远?从阿尔法狗到冷扑大师,从围棋到德扑,AI普及还有多远?数码沃百家号人工智能不断进化,人类是否会在竞争中败下阵来?4月6日,创新工场CEO暨创新工场人工智能工程院院长李开复博士发起的亚洲首度德州扑克人机大战在海南生态软件园举行。基于卡内基梅隆大学Tuomas Sandholm教授和博士生Noam Brown所开发的Libratus无限德州扑克人工智能系统——“冷扑大师”强势来袭,与由2016年世界德州扑克大赛的巅峰WSOP金手链冠军得主杜悦领军,汇集中国顶尖德扑高手组成的中国龙之队对决。实际上,这样的对决在近两年愈发频繁。2016年3月中旬,AlphaGo与李世石的人机大战落下帷幕,在5局比赛中,AlphaGo以4:1的绝对优势取得了胜利。2016年岁末,升级版的AlphaGo化身“Master”,进行了60场互联网棋局车轮大战,战胜了几乎所有的中日韩三国围棋界泰斗和新秀。日,CMU正式发布Libratus,该程序基于在匹兹堡的超级计算机中心,采用大约1500万核心小时的计算,使用算法分析德扑规则,建立博弈策略。2017年3月,阿尔伯塔大学,布拉格查尔斯大学和捷克技术大学的研究人员团队开发了一个名为DeepStack的AI系统。而Deepstack的论文早在CMU正式发布Libratus之前,便抢先于1月初发布在世界顶级学术刊物《science》上。DeepStack使用GTX 1080 GPU和CUDA的Torch深度学习框架,击败了完成比赛的11名玩家。2017年3月底,腾讯发布AI围棋程序“绝艺”,一路过关斩将,横扫各路好手,包括日本的人工智能程序ZEN,夺得世界围棋人工智能大赛UEC冠军,当然出于种种原因,此次比赛Deepmind的“Master”并未参加。回归到“冷扑大师”。截至8日,冷扑大师已经取得了连续三日领先的优势。6日,冷扑大师领先65137记分牌;7日,冷扑大师领先347565记分牌;8日,冷扑大师领先233874记分牌。三天下来,冷扑大师共领先646576记分牌。8日全天,龙之队完成8400手牌。上半场,冷扑大师在意料之中获胜,领先达173936记分牌。下半场,龙之队触底反弹,失利大幅收窄至59938记分牌。冷扑大师全天领先233874记分牌。为何“冷扑大师”的胜利能够获得业界如此高的关注度?同样赢得了博弈类比赛,AlphaGo与“冷扑大师”分别几何?由于德州扑克类的牌类游戏存在隐藏卡牌,在对局过程中,每个玩家所能接触到的卡牌都属于部分信息;而相对于卡牌游戏而言,围棋、象棋一类的棋类游戏中,玩家的思路完全呈现于自己的棋面之上。因此,AlphaGo在处理牌局时只需要将对手棋面信息与自身信息库中的棋谱信息相匹配,即可完成进一步的博弈,实际上是在解决完整信息的博弈;而“冷扑大师”在德扑比赛的过程中无法得知对手的牌面信息,也就没有一个最佳的选择可供参考。因此,它不仅要对不完整的信息进行分析,对现状作出判断,不断调整战术,甚至使出诈唬的策略欺骗对手。这一系列大量的复杂推理和运算,AlphaGo几乎是完成不了的。要“IQ”也要“EQ”李开复博士认为,“如果AlphaGo是超级IQ天才,那么‘冷扑大师’就是超级EQ天才。”“冷扑大师”并不是基于大数据、深度学习、强搜索等传统AI方法;而是基于博弈论,在经过随机牌局训练后,形成自己独立的策略,在比赛过程中结合大量的数学和概率计算,通过平衡风险与收益来决定自己的下一步。人工智能的优势在于其高效的运算水平及其深度学习的能力。但是,现实的社会是人性化的社会,单纯拥有复杂算法和高效运算水平的“高IQ”人工智能具有太多的局限性。“冷扑大师”相对于名噪一时的AlphaGo而言更接近人性,对于现实世界中的信息隐瞒以及欺骗等种种现象具备一定的分析和推理能力,能够在不完全的信息中充分计算分析,以获取最大化的积分。事实上,这种具备“高IQ”和“高EQ”的人工智能系统已经逐渐走进了人们的日常生活当中。长虹公司刚刚推出的能够分析、理解用户语义,秒速反馈用户指令的Q5N人工智能电视机,美的公司正在研发的“虚拟厨房助理”小美等人工智能产品都不再只存在于科幻大片中,而是正渐渐走进普通消费者的家中。实现自主分析,人工智能走近生活人工智能程序的应用当然不止于娱乐、比赛这么简单。“冷扑大师”的胜利表明了人工智能研究的进步,说明AI不仅能够像AlphaGo那样分析处理完整的信息,在面对不完全的信息时已经有了一定的推理、判断能力。而这样的人工智能则更加适合现实世界,能够更加容易地应用到社会的相应领域,并辅助人类解决日常问题。近期以来,”冷扑大师“进击中国掀起人机大战,百度人脸识别成功帮助走失儿童家庭团圆,长虹推出人工智能家居解放双手……有关人工智能的新闻甚嚣尘上。有乐观人士表示机器人终将拥有超越人类的智慧,极大推动生产力的提高,当然也有不少人对人工智能产生了焦虑,担心人类最后将无法控制人工智能。无论何种声音,我们都不难看出,人工智能终将给人类社会带来一场巨大的变革。不完整的信息呈现才是现实生活的常态,隐藏信息的存在使世界呈现出无限种可能,同时也令生活产生了许多不确定性。而真正能够融入日常生活、改善生活质量的,正是“冷扑大师”这种像人类大脑一样,面对隐藏信息能够做出自己的判断和推理,应付各种不确定性的人工智能,而不确定性人工智能的发展会成为接下来人工智能落地真实生活的关键点,智能家居便是重点之一。最近,长虹公司推出AI Center,正不失为不确定性人工智能未来发展中的众多方向之一。在人工智能与生活家居的结合中,不仅需要储存数据信息,更要基于对数据的深度学习持续成长。在不断整合碎片化信息的过程中,分析用户习惯与喜好,实现大数据从无用到有用的转变,更加高效地为用户提供服务,实现真正的智能家居。人工智能或许听起来还很遥远,实际上早已在不知不觉中渗透到我们的生活当中来。“冷扑大师”无疑是人工智能发展的有一个重要的里程碑,未来的人工智能将不断增加自主行为,逐步解放人体、解放人脑,使我们的生活更加便捷。本文仅代表作者观点,不代表百度立场。系作者授权百家号发表,未经许可不得转载。数码沃百家号最近更新:简介:专注优质内容的科技媒体作者最新文章相关文章德州扑克人工智能之父:AlphaGo赢不赢都缺乏用处_网易新闻
德州扑克人工智能之父:AlphaGo赢不赢都缺乏用处
用微信扫码二维码
分享至好友和朋友圈
(原标题:德州扑克人工智能之父:赢不赢柯洁,阿尔法狗都缺乏实际用处)
人机对战无疑是4月10日的新闻焦点之一。一边在海南澄迈,德州扑克人工智能“冷扑大师”(Libratus)经过5日激战,在33000手一对一无限注德扑比赛中完胜中国“龙之队”的6名高手,斩获200万人民币奖金;另一边在北京的中国棋院,谷歌宣布被中国网民称为“阿尔法狗”的围棋人工智能AlphaGo将在5月下旬的乌镇对阵柯洁领衔的中国顶尖棋手,上演终极一战。一南一北,一牌一棋,两则人机对战重磅消息在同一天出炉,虽然未必是有意针锋相对,但也足够令无心的观众相互比较。有些读者认为,连围棋这样高深的智力运动都早已被阿尔法狗拿下,扑克这样门槛低、上手简单的大众娱乐又何足挂齿呢?但反方则指出,扑克不是单纯靠计算的游戏,牵扯到很多心理上的博弈,有时甚至需要“飙演技”,AI能掌握这类游戏有些匪夷所思。那么,德扑和围棋这两种智力游戏,对AI来说到底有什么区别?哪个难度更大一些?针对这些问题,澎湃新闻(www.thepaper.cn)就冷扑大师和阿尔法狗的相关资料进行了梳理与比较。托马斯 桑德霍姆(Tuomas Sandholm) 资料图不过,冷扑大师的开发者、美国卡内基梅隆大学(CMU)计算机系教授托马斯 桑德霍姆(Tuomas Sandholm)在听到阿尔法狗将来华挑战的消息后,评价非常的简单:问题的关键并不在于中国顶尖棋手能不能赢,而在于生活中几乎不存在像围棋这样的“完美信息游戏”,因而阿尔法狗也缺乏实用场景。围棋和德扑对于AI来说,性质是不是一样的?自1988年CMU开发的“奥赛罗”程序击败世界黑白棋冠军以来,人类就在棋类游戏上节节败退。1997年,IBM的计算机“深蓝”击败了国际象棋棋坛神话卡斯帕罗夫,使人机对战在当时达到了舆论高峰,其影响力绝不亚于去年阿尔法狗击败韩国棋手李世石。计算机程序攻克这些棋类游戏的方法在本质上是一样的:搜索。下每一步棋都是一个决策点,在决策点上分化出不同的可能性,而整盘棋也就形成了一棵不停分叉的决策树。而计算机所做的,就是在每一个决策点上搜索胜率最大的那条路径。因而难度主要取决于决策点的数量。决策点越多,搜索难度自然越大。黑白棋的搜索量只有10的十几次方,国际象棋是10的四十几次方,而围棋的搜索量达到了惊人的10的170次方。不过,也正因为围棋的搜索量太大,完全精确的结果是不可能得到的。因而,阿尔法狗在蒙特卡洛树搜索算法(Monte Carlo Tree Search)的基础上,结合走棋网络(Policy Network)、快速走子(Fast rollout)和价值网络(Value Network)进行预测和评估,得到尽可能接近最优的解。虽然阿尔法狗这个过程中做出了巨大突破,但它本质上还是在搜索。德州扑克与棋类完全不同。围棋是一种“完美信息游戏”,场面上所有的情况都黑白分明地摆在棋面上,双方掌握对等的信息。然而,德扑中隐藏了很多信息,是一种“非完美信息游戏”。玩家不知道对手手中是什么牌,不知道五张公共牌会开出怎样的结果,也不知道对手猜测自己握有怎样的手牌。因此,虽然一盘德扑的决策点数量是10的160次方,要少于围棋,但光靠搜索是打不了德扑的。德扑由此跳出了在搜索量上的较量,对AI提出了另一个方向上的考验:应对隐藏的信息。阿尔法狗和冷扑大师的原理有何不同?谷歌曾在《自然》杂志上发表文章,公布阿尔法狗的几个基本原理,分别为:走棋网络(Policy Network),给定当前局面,预测和采样下一步的走棋;快速走子(Fast rollout),在适当牺牲走棋质量的条件下提高速度;价值网络(Value Network),给定当前局面,估计双方胜率;蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),把以上三个部分串联成一个完整的系统。冷扑大师的算法则主要基于以下三个模块产生:首先,纳什均衡是德扑算法的核心,即AI的目标是找到一个无论对方怎么做,自己都不会产生损失的策略。根据博弈论,像一对一扑克这种零和游戏永远存在这样的最优解,就像在经典的博弈论模型“囚徒困境”中,招认罪行就是一个无论对方招认不招认都最优的策略。因此,冷扑大师的开发团队提前在庞大的决策树上利用虚拟遗憾最小化算法(Counterfactual Regret Minimization,CFR)推算出了均衡,即通过多次迭代计算博弈树中每个信息集的动作遗憾值和平均策略值,预测下一时刻的决策动作,使其是当前最小遗憾动作。此外,冷扑大师还有残局解算器(end-game solver)和自我强化学习这两个模块来辅助第一个模块。残局解算器会在残局时实时评估场上的情况,以判断第一模块中算出的纳什均衡是否符合实时情况。而自我强化学习会反思AI在比赛中的表现,找出曾被人类利用过的“套路”,清除这些可循的痕迹。总体来说,阿尔法狗和冷扑大师的算法有三大明显不同。第一,阿尔法狗的训练过程中用到了大量数据的深度学习,即通过大量给定的输入和输出形成稳定的处理。但计算机的处理过程本身是一个黑匣子。而冷扑大师没有用到时髦的深度学习,而是通过传统的线性规划提前算出纳什均衡,是一个“老式但好用的人工智能”(Good Old-Fashioned Artificial Intelligence)。第二,阿尔法狗在深度学习过程中参考了数千万张人类棋谱,可以说是靠模仿人类高手起步的。虽然阿尔法狗也运用到了一些自我强化学习,但比重并不大。而冷扑大师完全是通过自我强化学习进行训练的。开发者从未教给它人类打牌的方法,只是向它描述了德扑的规则,由它“左右互搏”,摸索出德扑应该怎么玩。因而,冷扑大师的打法完全脱离了人类经验。值得注意的是,即将与柯洁在乌镇对战的阿尔法狗2.0将摈弃人类棋谱,完全采用一套自我摸索出来的下法。第三,虽然阿尔法狗和冷扑大师都特别喜欢残局阶段下杀招,但它们的难度不一样。围棋下到残局,可走的招数越来越少,计算量也越来越简单;而德扑开到转牌和河牌时,可能性更多,局面变得更为复杂。因此,冷扑大师经常在转牌阶段做出长时间的停顿。阿尔法狗和冷扑大师哪个更有用?在冷扑大师的开发者、美国卡内基梅隆大学(CMU)计算机系教授托马斯 桑德霍姆(Tuomas Sandholm)和其博士生诺姆 布朗(Noam Brown)看来,这个问题的答案十分明显。在现实生活中,几乎不存在像围棋这样给出所有信息的完美情境,因而像阿尔法狗这样的算法也很难直接派上用场。在现实生活中,我们遇到的事情会更像玩德扑:商业谈判时对方未知的底牌、房屋拍卖时竞争对手难测的举动、股票交易中一些隐藏的内部消息。桑德霍姆认为,德扑AI打开了靠人工智能解决随机事件和隐藏信息的大门。这样的AI,才有望离开虚拟的棋牌世界,成为人类在现实生活中谈判、博弈和投资的好帮手。桑德霍姆自己就成立了一家战略计算公司,希望利用人工智能解决金融上的一些战略计算问题。首先,金融交易拼的是速度,AI在量化交易上具有巨大优势。其次,像股票交易中经常会存在一些隐藏的信息,AI能在交易者较少的情况下,帮助人类在隐藏的信息面前做出决策。阿尔法狗和冷扑大师哪个更厉害?
诺姆 布朗说道,每一种游戏从计算机科学的角度来说,都存在一些核心问题,而掌握这个游戏的AI相当于解决了这个核心的问题。围棋和德扑代表了两类完全不同的游戏,阿尔法狗和冷扑大师也在朝完全不同的两个方向探索。只不过,围棋在“完美信息游戏”中属于高难度水平,因而阿尔法狗也在搜索这个核心问题上取得了巅峰成就。而冷扑大师刚刚打开了“非完美信息游戏”的大门,对于解决隐藏信息这个问题来说,德扑AI只是个开始。光就游戏而言,与德扑类似的奥马哈,就比德扑更为复杂一些。布朗说,他们对中国的麻将略知一二,麻将也是一种充满了隐藏信息的游戏。
本文来源:澎湃新闻网
责任编辑:黄家第_NNB6466
用微信扫码二维码
分享至好友和朋友圈
加载更多新闻
热门产品:   
:        
:         
热门影院:
阅读下一篇
用微信扫描二维码
分享至好友和朋友圈

我要回帖

更多关于 围棋阿尔法狗 的文章

 

随机推荐