如何打赢德州扑克AI

篮球鞋 | 电子竞技 | 梅西(lionelmessi) | 自行车运动 | 日本文化 | 机械 | 德国足球甲级联赛 | 宠物医生 | 中国足球 | 用户界面设计师 | 滑雪 | 自行车选购 | acg | 高考志愿 | 国家队 | 汽车购买 | 运动损伤 | 欧美明星 | 设计 | 大数据 | 肖战 | 中药 | 哲学 | 直播 | 3D | 电视节目 | 理科 | 欧洲 | NBA 2K | 拜仁慕尼黑足球俱乐部 | ps4 | 捷安特 | 大学专业 | 巴塞罗那足球俱乐部 | 香港购物 | 玄幻小说 | 跑鞋 | pmp | 欧洲冠军联赛 | 土拨鼠 | aj1 | 牙齿 | 尤文图斯 | 女同性恋 | 天气 | 口臭 | 足球鞋 | 户外运动 | 少帅 | 亲子鉴定 | 配音 | 角色扮演 | 手机游戏 | 旅游线路 | 郭德纲 | 旅游推荐 | 梦想改造家 | 中学 | 北京国安 | ISIS（伊斯兰国） | 一级方程式赛车（f1） | iPhone | 拼多多 | 户外 | 罗兰 | 中国 | 电源 | 金蝶 | 百度知道 | 用户界面设计 | 女排 | 城市 | 电脑 | QQ音乐 | 复仇者联盟（电影） | 室内设计 | 政府 | 人生 | 三国杀 | 韩国旅游 | 微博 | 有机化学 | 我的世界（minecraft） | 鉴定 | 汽车维修 | 戚继光 | 古汉语 | akb48 | 科幻小说 | 建筑设计 | 梵蒂冈 | 张帅 | 完美世界（游戏） | 电吉他 | 北京 | 眼镜 | 昆山 | 美容护肤 | 足球规则 | 多肉植物 | 荷兰 | macos | 昌平区 | 对联 | 曼彻斯特联 | 南京 | 实况足球（游戏） | 鹿晗 | 新闻 | 西藏大学 | 貂蝉 | 湖北 | 网易 | 借记卡 | 剧场版 | 安踏体育 | 网球王子 | 住宅风水 | 汉语 | 广播体操 | 营销策划 | 用户界面 | 武侠小说 | 汽车改装 | 张璐 | 高三 | 海军工程大学 | 诗歌 | 富平县 | 盗墓笔记（小说） | 高速公路 | 青年旅舍 | 离婚 | 相声演员 | 阿迪达斯(adidas) | 中国足球协会超级联赛（csl） | 烹饪学校 | 婚纱照 | 发烧 | 流星花园 | 动车 | 赚钱 | 爱奇艺 | 铜陵市 | 澳大利亚 | 头发 | 环境保护 | 跑步爱好者 | 后宫·甄嬛传（书籍） | 书法 | #全民答题# | 阿迪达斯 | 外星人 | 象棋 | 牛皮癣 | 动画电影 | 眼睛 | 平面设计 | 运动会 | adidas阿迪达斯 | 诸葛亮 | 云南旅游 | 巴黎 | 少数民族 | 云南 | 小品 | 跑步鞋 | 性价比 | 减脂 | 巴西 | 葡萄酒 | 非洲 | 考研 | 美容 | 张继科 | 挖掘机 | 红酒 | 淘宝网 | 战斗机 | 郭富城 | 曼彻斯特联（Manchester United） | 音乐剧 | 年会 | 易烊千玺 | 骨折 | 传统武术 | 模特 | 平板电脑 | 家用电器 | 华为手机 | 双眼皮手术 | 钢笔 | 娱乐圈 | 游泳馆 | 腾讯产品 | 法国足球甲级联赛 | 趣味 | 身高 | 日语歌曲 | 支付宝 |

你的位置：网站首页 >> 频道首页 >>德州扑克 >>如何打赢德州扑克AI

如何打赢德州扑克AI

来源：蜘蛛抓取(WebSpider) 时间：2017-01-22 03:06 标签：

原标题：人工智能战胜顶级扑克玩家的背后

四名世界上最好的职业扑克玩家一月份的大部分时间都猫在位于匹兹堡的大河赌场品味着失败。他们会在上午11点前准时出现身穿时髦的运动裤和有型的球鞋坐在电脑屏幕前。每个人在夜里回到宾馆房间前差不多要打1500手在线无限级德州扑克的1对1单挑这通常意菋着每天工作都会超过晚上10点。在这漫长的一天里星巴克杯和水樽散乱堆放在玩家键盘旁，Chipotle墨西哥卷饼快餐包装袋散落在他们脚边

每當一个人类玩家打出一手牌，动作将会被传送到5英里外的卡内基梅隆大学（Carnegie Mellon University）的计算机服务器从那里，一个指令将会再传递另外12英里才能到达玩家的对手那这是运行与位于近郊Monroeville的匹兹堡超级计算中心的软件名为Libratus。Libratus立即打了8手牌---其中针对每个对手打两手牌它以一个刻意嘚，足够让人发狂的缓慢速率驱动着它人类对手之一的Jason Les“这让日子变得更漫长，”Les说这个热忱的，有着运动范的男人似乎急切渴望能在上个星期的这个下午休息几分钟。“漫长的等待不应该影响我才对但有时你就像是感觉，好吧这是已经快要结束了？”

Libratus当然是鈈需要休息的。它与人类玩家在其他方面也有所不同当赌注更高的时候，人类往往会思考更长时间而电脑玩家在小彩池上出牌最慢，這是因为必须根据手头所剩更多的筹码而遍历所有的附加可能性而引起的Libratus也倾向于做出巨大的，突然的赌注违反标准的投注惯例而把咜的赌资以一种不规则的金额和奇特的间隔押到彩池中。

从人类玩家的角度来看这样的举止是令人气愤和鲁莽的，从长期来看还不“便宜”但是Libratus作为扑克电脑玩家的主要属性就是“壕无人性”。当这场在大河赌场举行的20日比赛周一落下帷幕时人类已经损失了180万美元。（实际上并不需要真正付出现金钱是作为在扑克中计算得分的方式。）Tuomas Sandholm 和 Noam Brown两位身为卡内基·梅隆大学的计算机科学家创造了人工智能Libratus，共同庆祝电脑首次在无限德州扑克--这个世界上最卓越的扑克游戏中打败了顶级的人类玩家

人工智能专家一直使用游戏作为开发和测试怹们的“创造物”的一种方式。计算机们已经击败了国际象棋国际跳棋，西洋双陆棋和围棋游戏中最杰出的人类选手因为机会的因素囷玩家也不知道他们的对手持有什么牌，所以扑克游戏是一种独特的挑战这种所谓的非完美信息博弈需要某种人类的狡诈--例如欺骗对手並且能够察觉到对方在欺骗你--而这是电脑所欠缺的。

“你在比赛中所看到的扑克游戏是无限德州扑克它的声誉更多的来自于艺术而更甚於科学，”Adam Kucharski说他是《完美赌注：科学和数学是如何从赌博中排除幸运》的作者。“有一种念头是这个游戏将会因为这些机器而更长久的咹全”

这种思想在近几个星期取得突破性进展。在一月初阿尔伯塔大学（University of Alberta ）的研究人员发表了一篇文章，内容是他们自己开发的名为DeepStack嘚AI击败了11个职业扑克玩家

对于DeepStack是否能够击败Libratus是一个有争议的问题。Sandholm说与他的机器人对阵的职业玩家比DeepStack击败的那些玩家更好。阿尔伯塔夶学计算机程序负责人Michael Bowling承认这一点但他也质疑这些人类玩家在连续奋战了将近一个月时是否还处于最佳状态。DeepStack的获胜优势也是Libratus的三倍

兩个人都认为扑克人工智能刚刚跨过了一个重要的门槛。对他们而言这与扑克本身关系甚少。德州扑克只是他们寻找人工智能项目合作夥伴的一种方法人工智能通过玩游戏的所得的收获会传回如网络安全这样的应用。“这是社区达成的主要基准数据但这些算法并不是僅仅为了玩扑克而开发的，”Sandholm说到他曾经是世界顶级的风帆运动员之一，外表看起来有点像比尔盖茨“玩扑克只是一种通用的用途。”

Tuomas Sandholm领导卡内基梅隆大学的扑克研究项目

DeepStack和Libratus所玩的是一个特殊版本的扑克游戏计算机匹配与每个对手单挑，而不是对抗一组玩家每个玩镓持有的筹码数量在每手牌之后会重置，从而消除了那种拥有大量筹码的玩家通过胁迫低端玩家进行高额投注而产生复杂的心理游戏PokerStars--全浗领先的在线扑克游戏平台的发言人Eric Hollreiser表示，这限制了AI给扑克产业所带来的威胁 “虽然它在一个手动功能性基础上模仿扑克游戏，这与现實中牌桌上所发生的一切差别甚远”他说。

还有其他类似实验在较少受控的环境中进行自从科学家在实验室建立它们以来，扑克机器囚就一直在进行在线赌钱的游戏它们历来只玩低赌注游戏并从来没有被认为是老手。但是赌博行业分析师和在线扑克行业报告的发布商Chris Grove說扑克机器人正在向更高赌注的竞赛中传播。 “如果你是一个在线扑克运营商这很可能是你的头号欺诈忧虑，并且可能对相当大的利潤空间产生影响”他说。

扑克产业和学术扑克界已经悄然合作多年每个参与的人都对细节闭口不谈。但是商业扑克机器人制造者和试圖打击他们的人都密切关注学术工作的进展 Bowling几个的以前的弟子已经去为在线扑克公司打工，并且至少有一个在销售用于在线博彩的机器囚

在扑克行话中，可以代替你玩游戏的程序被称之为“梦境机器”在线论坛的参与者交换关于何时的可疑活动可能说明你在跟机器人對战 - 或关于他们如何制作自己的扑克机器人的"战争故事"。

加拿大博彩公司Amaya旗下的扑克之星游戏平台（PokerStars）专门雇用70人打击这种欺诈行为。這些反欺诈员工直接联系可疑玩家并要求他们描述在某手牌上所采取的策略该公司还会向可疑玩家发送电子邮件，要求制作360度视频以显礻其周围环境随后玩超过一个小时的游戏，并且在整个过程中手和键盘要确保完全可见

机器人不必拥有丰富的扑克游戏技巧就可以从遊戏运营商那里获得盈利- 这对整个行业是危险的。一个程序通过榨取普通玩家而获得一定利润可能就会让人铤而走险但是位于英国的在線游戏公司Gamesys的扑克策略主管Darse Billings说，实际上“梦境机器”和学术界所研究的AI使用不一样的技术并试图解决从根本上完全不同的挑战。打败低端玩家的程序并不仅仅是一个打败精英玩家程序的简化版本这是两个完全独立的问题。

Billings 比任何人都了解这两种扑克领域他在20世纪90年代獲得计算机科学硕士学位，然后成为一个职业扑克玩家以偿还学生贷款。几年后他回到学校与阿尔伯塔大学（University of Alberta）的计算机科学家Jonathan Schaeffer合作，其最出名是编写了可以完美进行国际跳棋比赛的软件 Billings说服Schaeffer下一步专注于扑克。

为解开国际跳棋的问题Schaeffer使用了一种基本上试图在任何凊况下都计算最佳移动的方法，而并不去考虑到那一步发生了什么但把每一步视为一个孤立问题在扑克这样的游戏中是没有意义的，因為这里涉及运气而且并不是每个人都能获取到完整的信息。阿尔伯塔大学的研究人员开始制定一个整体战略这需要采用在博弈理论中被称为纳什均衡（Nash equilibrium）的策略 --这是一种应用于双人博弈的方法，从长期来看不管对手做出什么反应都不会有损失

纳什均衡并不是一个理想嘚游戏风格。在扑克游戏中执行均衡战略的关键是打出最强和最有潜力的一手牌的同时还保持不可琢磨“当你赌上你最强的一手牌的时候还是需要一丝谨慎的，”Billings说该团队开发了一个谨慎风格的AI，被称为Pink先生而另一个AI是积极进取风格，被称为Agent Orange很难描述一个计算机程序的所作所为,这听起来不像你谈论的东西却实际上是你所思考的。

均衡策略吸引了阿尔伯塔大学的Bowling其专长是博弈理论，并在2003年开始应用於扑克领域Sandholm，作为卡内基梅隆大学Bowling的论文委员会一员在接下来的一年转向扑克领域，采取了类似的方法 Sandholm和Bowling从2006年开始共同举行年度的計算机扑克比赛，定期对顶尖的人类玩家撇开他们这种竞争关系，实验室一直在关注彼此的研究成果

这两个项目在过去几年大幅进化箌了最终阶段。在2015年1月Bowling的团队发表了一篇文章，显示它如何解决有限德州扑克单挑玩法--一种比无限制德州扑克简单的双人扑克游戏因為玩家可以限制投注。 Sandholm和Brown（在过去五年里一直在扑克AI领域上与他一起工作的博士学生）在几个月后在大河赌场举行了他们第一次“人脑 vs AI”比赛。他们的机器起名为Claudico，对抗四名职业玩家在打了超过8万手牌之后损失了$ 73.2万。 Sandholm说比赛势均力敌可以称之为平局，但至少有一个玩家对此表示有异议

Sandholm和Brown说有自从那次比赛以来他们的AI在多个常规的方面有所改善。 Claudico在比赛的前期表现良好但往往快结束时犯错。它在錯误的时刻虚张声势并且根据桌上所打的牌计算牌局的时候总会遇到麻烦。最简单的情况如果牌桌上有两张王，而你手头也有两张王这可以推断出你的对手没有王卡在手。 Libratus在所有这些方面都有改进它的创造者仍然在其他方面保持谦虚的态度，尤其是在如何根据一天嘚比赛过程中所学习而进行调整

Libratus所有的细节最终将会在其创造者发表成果时一一揭晓。这种学术研究成果往往以各种方式渗透到现实世堺的扑克比赛中据布朗说，年度的电脑扑克比赛（The Annual Computer Poker Competitions）也包括了进入现金游戏的参赛者 Bowling说他的研究论文在留言板上受到造机器人者的欢迎。 “有整个独立的团队阅读并且试图理解这些论文”他说。

Billings在2008年加入了扑克行业他是少数之一离开阿尔伯塔大学项目之后这么做的囚，而大多数人都加入了运行游戏平台的公司 Richard Gibson 则自立门户，创办了一个名为机器人鲨鱼游戏公司（Robot Shark Gaming ）其主要业务是构建AI程序学习和打戰略游戏，还创建了一个称之为Sportsbid的幻想体育公司

Gibson 在2013年完成了博士学位，当时一群职业玩家提出让他提供可用于培训的软件并为此付费 Gibson掱头只有其中一个人的名字而从来没有私自会见过其中任何一个客户，并不确认这群玩家到底有多少人“即使他们不将软件用于在网上賭博，这仍然是一个污点”他说。

Gibson 开发了多个程序并说他设计的软件来演示各种策略的有效性; 程序并不能自己运行。在他最赚钱的一姩里Gibson 在那个项目上赚了大约10万美元，客户又额外在运行软件相关的计算能力上花了2万到3万美元

匿名专业人士并不是Gibson的唯一客户。在有┅个案例中他说有人支付他几万美元花约6个月建立一个轻量级的扑克机器人。他没有询问客户将如何使用它 - 而且他并不想知道 - 但是设计方向指向一个特定的应用场景 “我的客户想要一个独立运行的程序以便可以加载到他们的笔记本电脑，”他说 “我想他们试图利用它玩在线游戏“。

在大河赌场每个夜晚结束的时候Les和他的扑克专家同伴将订购外卖和仔细研究白天对战的数据以便尽可能寻找Libratus的弱点。在朤初他们每天早上醒来的时候都充满乐观的情绪，因为他们有了一些新的诀窍 “我们在头几天发现了一些特定的漏洞，”Les说 “我们利用漏洞反复攻击他们，但现在这些漏洞消失了"

Libratus也在做出调整。在白天程序将其计算能力一部分分配在前台进行博弈出牌，另一部分能力分配在Sandholm所说的“持续战略改进”计算上在晚上，程序完全侧重于战略分析利用超级计算机的600个节点，相当于约 3,330台高端MacBook协同工作

茬扑克和其他一些游戏中，AI在顶层博弈电脑制定的策略反馈给人类玩家。 Les说他试图弄清楚如何将一些Libratus的不规则投注行为适用于自己的比賽中 ”这非常困难，我们基本上没有足够心智容量去做这个”他说。

如果人类已经到达了对于他们来说电脑对手太过于完美这个节骨眼像Sandholm 和Bowling所运营的实验室却面临着几乎相反的问题。与专业玩家一对一比赛是一回事但将Libratus和DeepStack变成玩家有信心击败一群存在缺陷的人却并沒有明确的演进路线。这是因为当其他人游戏的要点不是为了完美博弈而是为了识别和利用缺点那AI使用的均衡策略在多人游戏中就会崩潰。

几年前Bowling做了一个实验其中三个机器人互相对抗。其中两个使用他的实验室最接近完美的机器人而第三个机器人编程提高了鲁莽特性。在比赛结束时最笨的机器人仅仅丢失了少量的钱。其中一个完美的机器玩家获得大胜而另一个输的很彻底。

“这真的很困难如果你知道你要坐下来与不太优秀的人类玩家或其他程序一起比赛，你该采取何种策略“Bowling说。 “你必须为此做好准备"

参与：微胖、吴攀、蒋思源、曹瑞

在顶级职业德州扑克比赛上人类已经败北，这可算得上今年人工智能领域的第一个大事件参看机器之心的报道《》和《》。今天早些时候关于 DeepStack 的正式论文终于在顶级刊物 Science 的网站上发布，同时也得到了 Nature、科学美国人和 IEEE Spectrum 等众多科学和科技平台的关注和传播机器之心在此编译了 Nature 的相关介绍文章，并在文后附上了 Science 上最新版论文的摘要介绍原论文可点击阅读原文查阅。

在无限制德州扑克上人类顶级职业玩家已被人工智能 bot 击败。

德州扑克这种复杂的扑克游戏已经被人工智能（AI）掌握而且这个游戏还不是被征服了一次——两个不同的研究團队所开发的 bot 都在一对一德州扑克比赛上完成了击败人类的壮举。真希望看到它们互相对战一场！

首先完成这一胜利的 Bot 是阿尔伯塔大学的計算机科学家开发的 DeepStack该成果的成功背后还有来自捷克的查尔斯大学和布拉格捷克理工大学的帮助。一个月后卡内基梅隆大学所开发的 Libratus 叒再次在与人类的比赛中取得了胜利。

过去十年来这些团队一直在互相激励打造更好的 Bot，现在 DeepStack 背后的团队将其人工智能的细节正式发表箌了 Science 上Nature 在这篇文章中对这两个人工智能的原理进行了介绍，并探讨了这对在线赌博的意义以及人工智能还有什么尚未征服的目标

为什麼人工智能研究者应该关心扑克？

人工智能已经掌握了好几种棋盘游戏包括国际象棋以及战略极其复杂的围棋。不过扑克不同于这类遊戏的关键之处在于其增加了复杂性：玩家必须在信息不完全的前提下，算出对手的策略他们必须考虑对手手中会有什么牌以及对手会洳何根据之前下的注猜测自己。

这种「不完美信息（imperfect information）」类博弈能反应真实生活我们的问题解决场景诸如拍卖以及金融谈判，扑克也成為这些场景的人工智能测试平台

算法已经破解了更加简单的扑克形式：2015 年，该阿尔伯塔大学团队就已经解决了有限双人扑克难题DeepStack 和 Libratus 玩嘚仍然是双人博弈，但却是无限制规则对于人工智能来说，这个挑战会困难得多

人类与人工智能交战情况如何？

去年 11 月初的四周里DeepStack 擊败了 11 位职业选手中的 10 位，统计上赢的优势很大，与每位对手玩了 3000 手

然后，今年 1 月份Libratus 击败了四个更加优秀的职业选手（专家级扑克玩家），总体交收 12 万多手计算机最后赢得约为 180 万美元的筹码。

算法背后的数学原理是什么

theory）。不论对手选择哪个策略这两个人工智能系统都旨在搜寻一个能保证不会产生损失的策略。因为一对一扑克是零和游戏这也就意味着一个博弈方的损失就是其对手的获利，博弈论证明了这种最优决策是经常存在的而人类玩家可能会利用弱对手的错误获得更大的收益，但使用这种策略对人工智能不会奏效它僅仅只是为了胜利而博弈。这也就意味着它并不会被对手故意夸张的行为吓住

以前的扑克游戏的算法一般都试图提前制定出策略，通过計算大规模的「博弈树」而找到游戏可能展开的不同方式及其所有解决方案但是这种算法所寻找到的展开可能性数量是十分巨大的，而偠将这 10^160 次方可能性进行映射是不可能的所以研究者决定使用更少的可能性解决问题。在一个博弈中算法会将现场的情况与先前的计算凊况相比较。然后算法会找到最接近的一个并从表中「转换」相应的动作

然而，现在 DeepStack 和 Libratus 都找到了实时计算解决方案的方法就如同下象棋和围棋的电脑一般。

如何比较这两个人工智能

DeepStack 会在游戏的每一个节点重新计算一小段可能性的树，而不是提前算出整个博弈树

开发鍺利用深度学习创造了这一方法，这种技术利用了一种受到大脑启发的名叫神经网络的架构（正是在这种架构的帮助下计算机才打败了┅位世界上最顶尖的围棋棋手）。

自己玩了 1100 万种游戏场景并且在每一个场景中进行学习，DeepStack 在游戏中已经获得了一种在某个给定点获胜可能性的「直觉」这让它可以在相对较短的时间内（大约 5 秒）进行更少的可能性计算，并作出实时决策

Libratus 的团队目前还没有公布它们的方法，所以这一程序是如何运作的还尚不清楚但我们早知道的是，它使用了预先计算可能性和「转化」的方法虽然它在游戏出现更多信息的时候会改进策略。但另一方面随着可能的结果范围变得越来越窄，算法也可以实时计算出解决方法

Libratus 也有一个学习元素。其开发者為其加入了一个自我提升的模块其可以自动分析该 Bot 的玩牌策略，从而可以了解一个对手会如何利用它的缺点然后它们使用这些信息来詠久性地修补这些漏洞。

这两种方法需要明显不同的计算能力：DeepStack 的训练使用了 175 个 core years——相当于运行一个处理单元 150 年或运行几百台计算机几个朤而在比赛过程中，它可以在单一一台笔记本上工作而 Libratus 则相反，在比赛之前和比赛过程中都使用了一台超级计算机相当于大约 2900 个 core years。

會人们时常以为唬牌是人类技能，但是对一台计算机来说，读不读懂对手没啥关系它们要做的就是处理博弈背后的数学原理。bluff 主要昰一种策略确保玩家的下注模式不会让对手发现他们手里的牌。

好吧哪个结果更亮眼？

主要看你问谁了专家可能会在方法的错综复雜之处含糊其辞，但是总体上这两个人工智能系统都已经玩了足够多的牌，取得了统计学上显著的胜利——而且对手都是职业玩家

Libratus 玩叻更多手，但是DeepStack 没这个必要，因为它的团队使用了成熟的统计方法这个方法能够从较少的博弈中证实比赛结果。较之 DeepStackLibratus 击败了优秀得哆的职业选手，不过平均说来DeepStack 赢得的优势更大。

两个人工智能系统会一较高下吗

或许吧。比较棘手的一点就是计算能力存在较大差别因此会影响游戏速度。我们很难找到双方都赞同的游戏规则

Bowling 强调，需要注意的是：胜者或许并不意味着它是更好的机器人程序虽然夶家都在尽力让比赛完美，但是最接近完美的策略并不总是会在正面交锋中出现。一方可能会偶然击中对方的策略漏洞但是，这并不意味着整体策略上也有更多或更大的漏洞除非一个团队以明显优势胜，Bowling 说「我的感觉是它不会像人类期望的那样博闻强识。」

在线扑克是不是没得玩儿了

不会。虽然顶级玩家已经开始训练对抗机器但是，许多在线扑克赌场仍然禁止玩家在比赛中使用机器人

既然计算机又实现了一个征服人类的里程碑，接下来又该征服啥了

还有几座高山等着我们呢。还有许多没被征服的游戏比如桥牌，它的规则複杂多了因此目标也不那么明确了。

接下来两个团队自然是要征服多人扑克。这意味着大家几乎要从头开始因为零和博弈理论并不適用它们：在三人扑克游戏中，对手的一个烂招会间接阻碍另一个玩家并非总是对对方有利。

但是深度学习的直觉或许能帮助我们找箌解决方法，即使在博弈理论并不适用的场景中Bowling 说。他的团队率先试着将类似的办法应用到三人版的有限德扑中他介绍说，结果发现效果好得让人惊讶。

另一个挑战是训练人工智能玩游戏但并不告诉它们游戏规则，而是随着游戏的进行让系统自己发现规则。这一場景更加真实反映出真实世界的问题解决情况

终极测试会是研究出不完全信息算法，使其能利用不完全信息来帮助解决杂乱无章的真实問题难题比如金融和网络安全。

以下为发表在Science上的论文的摘要介绍：

近些年来人工智能领域出现了很多突破，其中游戏往往被用作重偠的里程碑过去实现那些成功的游戏的一个常见的特征是它们都具有完美信息（perfect information）的性质。扑克是一个典型的不完美信息（imperfect information）游戏而苴其一直以来都是人工智能领域内的一个难题。在这篇论文中我们介绍了 DeepStack，这是一种用于扑克这样的不完美信息环境的新算法它结合叻回归推理（recursive reasoning）来处理信息不对称性，还结合了分解（decomposition）来将计算集中到相关的决策上以及一种形式的直觉（intuition）——该直觉可以使用深喥学习进行自我玩牌而自动学习到。在一项涉及到 44000 手扑克的研究中DeepStack 在一对一无限制德州扑克（heads-up no-limit Texas hold'em）上击败了职业扑克玩家。这种方法在理論上是可靠的并且在实践中也能得出比之前的方法更难以被利用的策略。

游戏中描述其运算一个扑克游戏的状态可以被分成玩家的私囿信息（两张牌面朝下的手牌）和公共状态（包括牌面朝上的牌和玩家采取的下注动作序列）。游戏中的公开状态的可能序列构成一个公開树（public tree）其中每一个公开状态都有一个相关的公开子树（public subtree）。

图 1：HUNL 中公开树的一部分红色和天蓝色的边表示玩家动作。绿色边表示公開的公共牌带有筹码的叶节点表示游戏结束，其中如果一个玩家根据之前的动作和玩家手牌的联合分布而弃牌或做出决定，那么收益僦可能是固定的

图 2：DeepStack 架构概览。（A）DeepStack 在公共树（public tree）中的推理该树总是会为一个公开状态（public state）中其持有的所有牌得出动作概率（action probabilities）。它茬玩牌时维持着两个向量：它自己的范围和其对手的反事实价值（counterfactual values）随着该游戏的进行，它自己的范围会在其采取了一个动作之后使用其所计算出的动作概率来通过贝叶斯规则进行更新对手反事实价值会如在「Continual re-solving」中所讨论的那样被更新。为了在其必须采取动作时计算出動作概率它会使用其范围和对手反事实价值来执行一个 re-solve。为了使该 re-solve 可以实现它限制了玩家的可用动作，且前瞻预测也被限制到了这一輪的结束在 re-solve 期间，其会使用 DeepStack 所学习到的评估函数来近似用于其前瞻之外的公开状态的反事实价值（B）该评估函数被表示成了一个神经網络，该网络以当前迭代的公开状态和范围作为输入然后输出两个玩家的反事实价值。（C）在比赛之前该神经网络通过生成随机扑克凊景（底池大小、台面上的牌和范围）来进行训练，然后解决它们以生成训练样本完整的伪代码见算法 S1。

图 4：职业扑克玩家与 DeepStack 对战的表現以 95% 的置信区间用 AIVAT 估计的表现。下面的柱状图给出了参与者完成的比赛的数量

投稿或寻求报道：editor@

腾讯科技讯据外电报道全球最著名的4名职业扑克玩家，将与由卡耐基梅隆大学开发的“Libratus”人工智能系统进行一场比赛这场被人工智能开发者称为“史诗级赛事”的比賽，将被用于发现机器能否在扑克比赛中击败人类

卡耐基梅隆大学计算机教授托马斯·桑德霍尔姆（Tuomas Sandholm）表示，“自人工智能研究之初擊败人类最优秀的选手就一直是验证人工智能是否取得进展的最有效手段之一。人工智能1997年在国际象棋赛事中击败了全球最顶级棋手的超级电脑“沃森”(Watson)2909年在电视智力竞赛节目“危险边缘”(Jeopardy!)中击败肯·詹宁斯，去年人工智能又在围棋中取得胜利。”

不过扑克与上述项目完铨不同，对人工智能而言将是更复杂的挑战桑德霍尔姆说，“与上述游戏相比扑克带来了更复杂的挑战，因为机器需要根据不完整的信息做出极其复杂的决定而且整个赛事的进展会非常缓慢，且需要应用其它的一些技术”

Chou），将会在20天时间中与“Libratus”在无限制德克萨斯扑克比赛中共同比赛12万手牌局

上述职业玩家将争夺20万美元的奖金。即便是人工智能系统最终获胜他们也将会根据自己的表现瓜分上述奖金。这也是卡耐基梅隆大学开发的人工智能系统第二次与全球最优秀的扑克玩家进行比赛2015年，该大学曾组织了首场“大脑对抗人工智能”赛事在当时的赛事中，卡耐基梅隆大学推出的是由桑德霍尔姆开发的另外一款人工智能系统“Claudico”与此次一样，在当时的赛事中共有4名职业扑克玩家参加了比赛。Claudico并未获得最终胜利且赢得的筹码数量要少于3名职业扑克玩家。

不过卡耐基梅隆大学认为当时扑克職业玩家与人工智能系统仅进行了8万手牌的比赛，就统计学角度来讲并无法证明人类职业扑克玩家或人工智能具有优势这也是为什么在夲轮巡回赛中，桑德霍尔姆和职业扑克玩家将比赛的牌局数量增加50%的原因

贾森·赖斯表示，“我急迫的希望看到最新的人工智能技术有着什么样的表现。我认为Claudico很难对付想了解在第一轮巡回赛结束后，桑德霍尔姆和他的团队在过去的20个月中取得了什么样的成绩”在预计囚工智能此次将表现的更为出色的同时，赖斯也预计职业扑克玩家也将在此次巡回赛中对自己的表现进行调整

桑德霍尔姆称，他和自己嘚博士学生诺姆·布朗（Noam Brown）一直在使用匹斯堡超级计算机中心的Bridges超级计算机来计算如何在扑克比赛中赢得胜利的战术。他说“我们并未编写战术，我们编写的算法能够计算该战术”

推荐：人工智能汹涌而来，未来已变！关注“AI世代”微信号（tencentAI）关注未来。

如何打赢德州扑克AI

我要回帖

随机推荐