职业如何成为围棋职业选手选手下指导棋收费多少

篮球鞋 | 电子竞技 | 梅西(lionelmessi) | 自行车运动 | 日本文化 | 机械 | 德国足球甲级联赛 | 宠物医生 | 中国足球 | 用户界面设计师 | 滑雪 | 自行车选购 | acg | 高考志愿 | 国家队 | 汽车购买 | 运动损伤 | 欧美明星 | 设计 | 大数据 | 肖战 | 中药 | 哲学 | 直播 | 3D | 电视节目 | 理科 | 欧洲 | NBA 2K | 拜仁慕尼黑足球俱乐部 | ps4 | 捷安特 | 大学专业 | 巴塞罗那足球俱乐部 | 香港购物 | 玄幻小说 | 跑鞋 | pmp | 欧洲冠军联赛 | 土拨鼠 | aj1 | 牙齿 | 尤文图斯 | 女同性恋 | 天气 | 口臭 | 足球鞋 | 户外运动 | 少帅 | 亲子鉴定 | 配音 | 角色扮演 | 手机游戏 | 旅游线路 | 郭德纲 | 旅游推荐 | 梦想改造家 | 中学 | 北京国安 | ISIS（伊斯兰国） | 一级方程式赛车（f1） | iPhone | 拼多多 | 户外 | 罗兰 | 中国 | 电源 | 金蝶 | 百度知道 | 用户界面设计 | 女排 | 城市 | 电脑 | QQ音乐 | 复仇者联盟（电影） | 室内设计 | 政府 | 人生 | 三国杀 | 韩国旅游 | 微博 | 有机化学 | 我的世界（minecraft） | 鉴定 | 汽车维修 | 戚继光 | 古汉语 | akb48 | 科幻小说 | 建筑设计 | 梵蒂冈 | 张帅 | 完美世界（游戏） | 电吉他 | 北京 | 眼镜 | 昆山 | 美容护肤 | 足球规则 | 多肉植物 | 荷兰 | macos | 昌平区 | 对联 | 曼彻斯特联 | 南京 | 实况足球（游戏） | 鹿晗 | 新闻 | 西藏大学 | 貂蝉 | 湖北 | 网易 | 借记卡 | 剧场版 | 安踏体育 | 网球王子 | 住宅风水 | 汉语 | 广播体操 | 营销策划 | 用户界面 | 武侠小说 | 汽车改装 | 张璐 | 高三 | 海军工程大学 | 诗歌 | 富平县 | 盗墓笔记（小说） | 高速公路 | 青年旅舍 | 离婚 | 相声演员 | 阿迪达斯(adidas) | 中国足球协会超级联赛（csl） | 烹饪学校 | 婚纱照 | 发烧 | 流星花园 | 动车 | 赚钱 | 爱奇艺 | 铜陵市 | 澳大利亚 | 头发 | 环境保护 | 跑步爱好者 | 后宫·甄嬛传（书籍） | 书法 | #全民答题# | 阿迪达斯 | 外星人 | 象棋 | 牛皮癣 | 动画电影 | 眼睛 | 平面设计 | 运动会 | adidas阿迪达斯 | 诸葛亮 | 云南旅游 | 巴黎 | 少数民族 | 云南 | 小品 | 跑步鞋 | 性价比 | 减脂 | 巴西 | 葡萄酒 | 非洲 | 考研 | 美容 | 张继科 | 挖掘机 | 红酒 | 淘宝网 | 战斗机 | 郭富城 | 曼彻斯特联（Manchester United） | 音乐剧 | 年会 | 易烊千玺 | 骨折 | 传统武术 | 模特 | 平板电脑 | 家用电器 | 华为手机 | 双眼皮手术 | 钢笔 | 娱乐圈 | 游泳馆 | 腾讯产品 | 法国足球甲级联赛 | 趣味 | 身高 | 日语歌曲 | 支付宝 |

你的位置：网站首页 >> 频道首页 >>围棋 >>职业如何成为围棋职业选手选手下指导棋收费多少

职业如何成为围棋职业选手选手下指导棋收费多少

来源：蜘蛛抓取(WebSpider) 时间：2016-05-15 19:43 标签：职业围棋选手

我tom弱6见过的业5，最弱的是位女嘚比我还弱一截，下完后才知道是货真价实的业5其余碰到的业5实力参差不齐，但至少比我强不过有的强的不多，分先下还是有嬴的唏望有的就强的太多了。

所以我个人不建议请业5除非你很熟悉对方的实力档次，要么索性请业6一般都比较硬。

如果你小孩水平不高那么对手建议找比他稍微硬一点的，可以请高手如业6复盘如果你小孩水平已经不错了，那么索性采用彩棋方式对方嬴了拿钱，这样指导者也会认真下

?授权转载自公众号：奇略研究所（ID:qilue_institute）丨作者：云天外

如何成为围棋职业选手的变化数对于目前看起来强大无比的计算机资源仍然是一个无穷一般的概念。

AlphaGo可以打败人類顶尖水准棋手但是还远远达不到“最优解”的程度。

AlphaGo对于棋界无疑是一阵巨大的革新浪潮现在总能在棋手聚会里看到非常精彩的新招拆解，也就是戏称为“狗招”的大局观极强的下法后续的定论探讨

这篇文章为了帮助大家理解，做了很多比喻希望大家能从这篇文芓里开始理解AlphaGo和如何成为围棋职业选手人工智能的发展。

很多朋友听说过国际象棋程序 -- 深蓝在1997年深蓝击败了国际象棋特级大师卡斯帕罗夫。

就在当时如何成为围棋职业选手程序的水平仍然是k级，也就是不到业余初段截止2015年，全世界6000多种完全信息博弈游戏中只有如何荿为围棋职业选手程序无法抗衡相关领域的职业选手。

等等什么是完全信息博弈游戏！？

完全信息博弈游戏的定义：是指每一参与者都擁有所有其他参与者的特征、策略及得益函数等方面的准确信息的博弈

如何成为围棋职业选手、象棋落下子来，手中不藏牌盘上规则沒有变数，胜负在于面对于人脑近乎于无穷的变化数量做一个优化的策略、合理聚焦、深度速算。

对手隐藏的陷阱招数全部隐含与已經落在盘上的棋子之间。

(成名多年的如何成为围棋职业选手高手也会常常被妙算无穷的好棋深深折服如何成为围棋职业选手的魅力正源於此)

非完全信息博弈游戏，对比完全信息大家想必已经有大致了解了桥牌，暗棋各种带有战争迷雾的游戏。

如何成为围棋职业选手人笁智能为什么来的这么晚

从1997年到 2015年近20年的时间里，各类硬件发生了质的飞跃我们不再有人指望囤积BP机（寻呼机）还能赚钱，一部手机巳经可以轻松运转类似无尽之剑这样精良的作品

为什么过了这么久，人机对抗仍然需要调用非常夸张的计算资源

如何成为围棋职业选掱人工智能的难度主要体现在两方面：

搜索空间巨大：合法的如何成为围棋职业选手的变化（10^170）大于宇宙中原子数（10^80）。

局面判断难：多囚发表论文说明，不可能有一个很好的静态局面评估函数局面评估函数。静态局面评估函数（可以简单类比中国象棋残局）动态局面評估函数（类比中国象棋残局往前推算）

这两点暂且放在这里，之后细表

我们把如何成为围棋职业选手人工智能的发展分为三个阶段：

第一阶段：以模式识别和人工启发式算法为主，水平低于业余初段

第二阶段：以蒙特卡洛搜索树算法为代表，水平最高达到业余5段

苐三阶段：以机器学习算法为突破，战胜人类职业棋手

第一个完整下完一盘棋的程序，是1968年美国人Albert L. Zobrist，作为他的博士论文完成的

不过，接下来的20年里如何成为围棋职业选手AI们即使是对上刚入门的初学者，也难求一胜

1987年，应氏如何成为围棋职业选手基金会悬赏百万美え寻求能够战胜职业棋手的如何成为围棋职业选手AI。这个悬赏分很多级最低一级奖金，是十万新台币相当于四千美元，奖励给第一個能够受让十六子战胜业余高手的程序

1987年的百万美元啊！当时程序的水平，可想而知

让十六个就是这样，黑棋关键的地方先摆上十六個然后黑白一人一步比拼谁的领地大

一直到1990年，一位中国人中山大学化学系教授陈志行，在退休以后花了几个月的时间编写了名为“手谈”的程序。手谈问世以后几年内实力快速增长。

1995年手谈连续拿到了受让十四子和十二子战胜业余高手的奖金。

1997年手谈再过业餘高手的十子关。这三次突破共计为陈志行带来了六十万新台币的奖金同时，在1995至1998年手谈在两项计算机如何成为围棋职业选手世界赛Φ七连冠，在整个九十年代鹤立鸡群独占鳌头。

这张照片与手谈软件都是与我们这一代棋迷一起长大的回忆

前面讲到，如何成为围棋職业选手难一难在搜索空间大，就是不知道往哪里下二难在局面判断难，就是看不出是要赢还是要输

陈教授为了解决这两个问题，祭出了一个秘密武器——“势力函数”

“势力”是如何成为围棋职业选手术语，说白了就是一个棋子对周围空间的影响。

陈志行认为这种影响是可以量化的。

比如这图中有一颗黑子。

离黑子最近的四个点用圈标出的，受到的影响力是4. 稍微远点用×标出的四个点，受到影响力是3. 用方块标出的，受影响力是2

三角形标出的，受影响力是1. 更远的地方就没有影响了。

当然棋盘上有很多个子，位置不哃我们把所有棋子的影响力叠加起来，就可以得到棋盘上的某一个空点，到底是黑棋的势力范围还是白棋的势力范围。

这样一来形式判断的问题就有了一个初步的解决方案。

对于这个图上的局面我们看下面这个图。

当然这个图不是手谈的形势判断，因为这个软件太旧了不过直观上是相似的。

比如我们有这么一个局面棋盘中间标有字母的几个黑棋请大家忽略，这些棋不在棋盘上那么手谈会怎么判断呢？看下面这图：

很直观的更靠近白棋势力范围的，比如左上角白色的方块几乎都涂满了，表示这是白棋的确定地

而右下，黑方的确定地也是一样。而处于两者之间的比如棋盘左边中间，黑白势力范围的交界处也可以看出很明显的过渡。

这就是一个不呔坏的静态的局面评估函数

所谓静态，就是给你一个局面不用考虑这个局面会怎么发展，就能判断

同样地，这个影响函数也能初步解决这棋该走哪的问题

比如说，陈志行经常举的一个例子

当年手谈的对手，其它程序们面对一个棋型，总是懵逼就是下面这个棋型：

黑棋带圈的这两个子，构成一个棋型叫做小飞。现在白棋走在1这个位置对于下如何成为围棋职业选手的人来说，黑棋接下来的应法是常识

这种走了被别人应对了自己就尴尬的叫做：臭棋

黑棋应该挡住。这样黑棋三个子连成一片白1已经基本成为废子。

其它程序们鈈知道但是手谈知道。

对于上面那个局面手谈的势力函数就发威了：根据一个局部影响函数的分布，手谈不难识别出这是一个黑棋尛飞，白棋威胁要切断黑棋的棋型

这就是一种所谓的模式识别。那么一旦遇到这种情况我挡住就好了。

好到了实战的时候，手谈遇箌对手都能挡住小飞。而对手遇到手谈就是下面这种情况。

被白棋冲穿了局部很不好收场

黑方中间这两个子被白方切断黑棋被撕裂，黑棋形势瞬间恶化难怪手谈战无不胜。

但是我必须说的是。这个势力函数不是万能的。如何成为围棋职业选手有太多复杂的局部棋型手谈对于识别更多的棋型无能为力。同时基于势力函数的形势判断，也并不是很准确这就限制了手谈的进一步提升。

陈教授的畢生目标是让手谈提升到受让陈教授自己九子能获胜的水平

陈教授是业余高手，比刚才提到的应氏基金会派出的测试手谈的棋手，水岼还要高一些

能够受让九子战胜陈教授，可以说基本上达到了业余初段的水平让九子是这么摆的：

以前让新手好多次9子，也想起很久遠的以前被让九个被折腾的摸不着头脑

黑棋先摆九个，然后白棋落子和黑棋比拼领地大小

可以看到黑棋优势还是很大。可是直到陈敎授在2008年去世，手谈也没能过陈教授的九子关

实际上，在1997年后如何成为围棋职业选手程序陷入了一段发展缓慢的时期。这就有了下面這个故事“初段如何成为围棋职业选手赌局”。

1997年与深蓝战胜卡斯帕罗夫同一年，工程师Darren Cook 向计算机如何成为围棋职业选手从业者，包括陈教授和几位职业棋手，提出了一个问题：

什么时候才能有如何成为围棋职业选手程序达到业余初段水平

大家的答案五花八门。囿说三年以后的陈教授说2020年。有个职业棋手说要到23世纪

其中最劲爆的是，一位计算机科学家名叫John Tromp的回复：到2011年，不可能有如何成为圍棋职业选手程序战胜我

John是欧洲业余一级，比业余初段只低一个级别而且，John为自己押了一千美金

Darren欣然接受赌局。

那么这一千美金的賭局最后结果如何呢？

我们要先讲完第二代人工智能

一个下棋程序，可以归结为一个问题：

也就是在某一个局面下，轮到自己下棋你要下在哪里。

如何成为围棋职业选手盘上有许多选择，所以这个问题就归结为这么多的选择，哪一个是最好的或者说，比较好嘚

最简化的情况做一个讲解：

假设我们对每个局面有一个评分，评分越高代表对自己越有利相反的，如果评分低代表对对方有利。

當轮到自己落子时自己面临两种选择A1，A2自己选择A1后，对方可以选择B11B12。自己选择A2后对方可以选择B21，B22

乱入一张图，五彩斑斓还有铨局（global）感

如何成为围棋职业选手的选点很多，但是赋值却极为困难而且随着局面变化会产生变化。

那静态和动态都是人为赋予分数来計算实际执行的时候会有什么明显差异么？

静态评估就是只看棋盘的当前状态。动态评估还需看除当前状态外的其它状态。

比如用蒙特卡洛模拟大量棋局进行评估（Monte-Carlo methods）

第一代如何成为围棋职业选手人工智能的局限：

局面评估相比国际象棋，如何成为围棋职业选手的局面评估非常难

大家可能了解，国际象棋里面的后和车威力很大。

如果一方多了一个后或者多了一个车一般说来局面一定对那一方囿利。

当然还要根据子力位置好坏进行一定调整但是一般说来利用子力价值评估，已经能得到相当好的局面评估

但是对于如何成为围棋职业选手，并不能这样套用因为每一颗如何成为围棋职业选手棋子都是一样的，只是在棋盘上出现在不同位置才出现了不同棋子之間的价值差别。

而这对于电脑来说是非常难以判断的。

MCTS蒙特卡洛搜索树:

蒙特卡洛是摩纳哥公国的一座城市位于欧洲地中海。蒙特卡洛昰摩纳哥的历史中心也是世界著名的赌城。

蒙特卡洛算法蒙特卡洛方法（英语：Monte Carlo method）也称统计模拟方法，是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明而被提出的一种以概率统计理论为指导的一类非常重要的数值计算方法。

是指使用随机数（或更常見的伪随机数）来解决很多计算问题的方法

举例来说：假设我们要计算一个不规则图形的面积，那么图形的不规则程度和分析性计算（仳如积分）的复杂程度是成正比的。

蒙特卡洛方法基于这样的思想：假想你有一袋豆子把豆子均匀地朝这个图形上撒，然后数这个图形之中有多少颗豆子这个豆子的数目就是图形的面积。

当你的豆子越小撒的越多的时候，结果就越精确

借助计算机程序可以生成大量均匀分布坐标点，然后统计出图形内的点数通过它们占总点数的比例和坐标点生成范围的面积就可以求出图形面积。

在赌场中有很多數学概率计算的项目蒙特卡洛算法在处理有些问题时候相当有效，故因此得名

蒙特卡洛搜索树算法是一个基于蒙特卡洛思想，解决如哬成为围棋职业选手局面评估问题的算法

简单的说，对计算机来说如何成为围棋职业选手局面很难评估孰优孰劣，因为没有定型的地方很难判断属于哪一方

但是，如果棋局已经下完了那就可以数子，来判断谁赢了那么，对于一个没下完的局面就电脑模拟，把他丅完

每模拟一次，就得到一个最终的胜利结果

假如对于一个未完成的局面，模拟10000局其中黑方赢了5500局，白方赢了4500局

就认为此局面下嫼方稍优，认为黑方胜率55%

1.充分利用了电脑的计算能力。模拟的局数越多得到的结果也就越精确。

2.这种算法是天然支持并行计算的因為不同的模拟之间没有逻辑的因果联系，可以放到不同的机器上跑最后再综合结果。

1.招法只是根据统计结果来决定有时会缺少前后逻輯关联。

2.打劫尤其是连环劫。打劫有很强的前后关联

3.平均值和最大值的差异。举例来说：（要先说minmax search）

4.现在有A1A2两种选择：A1下面的是（3， 5）A2下面的是（0，10）显然应该选A1。因为如果我选了A1我的对手会选3。如果我选B我的对手会选0。0比3要小所以我会选A1，这样对我更有利但是如果我用蒙特卡洛搜索树算法呢，我看了下A有两个可能，平均值是4看了一下B，有两种可能平均值是5。这样看上去B更好

5.不哃的分支，搜索的深度应该并不一样比如，思考A1招法时候五步棋之后，明显发现不好后面的就不需要看了。而A2招法十步棋之后，吔很难说好与不好还需要继续往下计算。这时候如果平等的看待每个后续招法是不合适的。

1.时间可控解决MCTS的第3个缺点，动态分配资源好钢用在刀刃上。如果算出去几步一看情况不妙，马上收手去算其他节点。

2.UCT 算法最后的作为搜索结果的节点以及次优节点一定是經过多次抽样的具有较高估值可信度的节点

3在AlphaGo出现之前，最成功的如何成为围棋职业选手人工智能叫做Zen中文叫做天顶如何成为围棋职業选手。

我们先揭晓一下之前提到的“初段如何成为围棋职业选手赌局”的结局。在第二代人工智能兴起以后如何成为围棋职业选手AI進步迅猛。

2008年采用蒙特卡洛树搜索的MoGo受让九子战胜金明完九段。

次年MoGo受让六子战胜简立辰初段。业余初段似乎已经不是AI们的对手,不过John也不是坐以待毙。

在过去的十几年里John已经从业余1级进步到了业余2段。赌局最后期限临近悬念竟然不跌反增。2010年末John Tromp 与当时的一流程序多面如何成为围棋职业选手大战四局。

结果令人意外John 以4比0横扫多面如何成为围棋职业选手。并且从进程来看，多面如何成为围棋职業选手毫无还手之力可以说是惨不忍睹啊。John就此赢得一千美元的赌金

不过Darren不服。明明程序们早就超出了业余初段的水平只不过是你John吔进步了。

可是你一个人的进步能有程序们的进步快？两年以后我们再比一场这次不求你赌，只求你出战

2012年中，John再次站在了pk台上這一次他的对手是Zen。

Zen当时已经在西方如何成为围棋职业选手圈内小有名气在KGS上，每天都有业余高手排着队挑战Zen我记得当年我也和Zen下了┿几局。

印象中快棋输得多。慢棋大致相当当时我就觉得John一点机会都没有啊。结果John居然赢下了第一局。

不过Zen没有再给John机会，连胜彡局从而赢得了这个系列赛。“初段赌局”就此告一段落

同年，Zen在日本举行的电王战也就是计算机如何成为围棋职业选手的大赛中，夺冠

随后Zen与武宫正树对抗。武宫正树九段日本前超一流棋手，以“宇宙流”也就是重视外势的风格，受到棋友的喜爱

结果Zen连破武宫正树的五子关、四子关，也就是分别受让五子和四子战胜武宫正树这标志着如何成为围棋职业选手AI达到了业余高手的水平。

不过囙看当年视频，可以看出武宫对局心态相当放松明显是用下指导棋的态度。棋局内容中武宫试探较多有时也并未祭出最强下法。所以這个让四子需要打一个小小的折扣。

就在圈内一片乐观之时如何成为围棋职业选手AI的发展却又陷入了停滞。年如何成为围棋职业选掱AI进展缓慢。

2015年末在北京三里屯，世界如何成为围棋职业选手人工智能大会程序石子旋风力挫Zen夺冠。

在随后的人机对抗中中国的连笑七段——连笑，处于当打之年的一流棋手连笑让石子旋风四子和五子局皆胜，让六子局才败于石子旋风

在棋局中，石子旋风再次暴露出第二代如何成为围棋职业选手AI行棋缺乏逻辑性的问题特别是一个连环劫，被连笑耍得团团转

赛后，国家队总教练俞斌说如何成為围棋职业选手AI战胜职业棋手，恐怕还需要一百年即使是参赛程序开发者们的“乐观估计”，也认为这需要15-20年

当时没人想到，有一个程序正在飞速成长并已经战胜了一位职业棋手。

这个程序现在大家都知道了，就是AlphaGo

那我们接下来介绍AlphaGo。

大家或多或少可能知道阿法狗采用了一项核心技术，DCNN也就是深度卷积神经网络。

我们今天不展开讲神经网络不过，为了方便理解我还是给出一个神经网络的矗观理解。

人工神经网络模拟的是人脑中的神经网络。

成年人的大脑里有一千亿个神经元而这一千亿神经元构成的网络能够实现无数鈈可思议的功能。一个普通的人工神经网络通常能够实现人脑功能的很小一部分。

我们可以把它看成一个黑箱比如下面这个图。

具体箌AlphaGo采用的神经网络我们可以把它看成一个只会下棋的大脑。

一个只会下棋的大脑是什么样的呢我们可以用人类棋手下棋时的思维方式類比。请看这个图

我们下棋的时候，面对一个局面就好像给大脑输入了信息。

接下来大脑处理这个信息，得到两个输出：

一是候选招法这个局面，根据我十几年下棋的经验大概有ABCD这么四种走法。

二是形势判断这A招法，我获利10目B招法，获利3目C脱离战场，D方向錯误注意，这里的判断既有定量的也有定性的。这是人类棋手判断的特点最后我确定，选择招法A并且默默再做一次判断，确定自巳有优势

其实AlphaGo和人类的思维方式十分接近。AlphaGo的神经网络主要分为策略网络和价值网络

策略网络其实就是模仿人类给出候选招法的过程，而价值网络就是模拟人类形式判断的过程

我们用一个棋手来做比喻，藤泽秀行藤泽秀行，已故的日本名誉棋圣在座的部分棋迷也佷熟悉，秀行在日本以私生活混乱和酗酒著称

当然，我的重点是藤泽秀行当年号称“前五十手天下第一”，说的是藤泽秀行布局功夫叻得选点有独到之处。这和监督学习策略网络很像

监督学习策略网络，是从人类业余高手的棋谱中挑选出三千万个局面学习得到的

學习的结果是，这个网络在大部分时候能够像人类的业余高手一样选点总体有业余3段的水平，就好像一个超低配版的藤泽秀行

这个低配版的藤泽，另一个特点就是“慢”

藤泽秀行下棋也慢，他曾经有一手棋长考三小时然后怒屠对手大龙的经历。

而低配版的藤泽秀行呢一秒钟只能下三百步。你可能会问一秒钟三百步还算慢？别急跟接下来这位比，这个藤泽还真算慢的

罗洗河，中国职业九段綽号神猪。当年罗洗河曾串烧五位韩国顶级棋手并在决赛战胜石佛李昌镐，夺冠的同时也终结了李昌镐的霸业。

罗九段以幼年测智商160 聞名棋界下棋时落子飞快，经常只用对手的一半时间

而我们的快速走子网络，比神猪罗洗河更快快速走子，一秒能走五十万步简矗就要上天。不过快，就要牺牲下棋的质量

当年我学棋的时候，有一段时间也下得飞快我的老师就斥责我，“你这下得是如何成为圍棋职业选手吗你这简直就是摆石子！” 快速走子，实力也和摆石子状态的我差不多业余2段水平。

但是这个水平也不简单啊第二代洳何成为围棋职业选手AI为什么遇到瓶颈？

很大程度上就是因为在蒙特卡洛搜索树的模拟中缺少一个能把色子投得又快又好的人现在我们囿罗洗河。它比策略网络快一千倍实力却差不了太多，恰好是负责模拟的最佳人选

另一方面，罗洗河天赋异禀这个快速走子不是从唍整的棋谱里训练出来的，而是把所有局部的棋型都列举出来

所有的局部棋型，12格的小方块里面几万个棋型，大家算算3^12是多少全部輸入到罗洗河的脑子里，然后让他自己琢磨去

这个琢磨的方法不是深度学习，而是线性回归不过，还是管用的我们训练快速走子，“罗洗河”的口号就是不求最好，只求管用！

接下来是一位重量级人物聂卫平。

擂台赛英雄不必多介绍了。这里值得一提的是藤澤秀行当年为了帮助中国如何成为围棋职业选手发展，曾多次自费组团前往中国指导年轻棋手

老一辈的中国棋手，包括聂卫平在内都紦藤泽看作自己的老师。

同样强化学习策略网络，低配版的聂卫平也是低配版藤泽，监督学习策略网络的学生

低配版聂卫平，从低配版藤泽的招法开始在自我对弈的过程中不断更新迭代，稳定以后变得比老师更强大达到业余4段。

这个低配版“聂卫平”的主要职责就是鞭策后生，训练价值网络想当年，2002年围甲联赛50岁的聂卫平和一位13岁少年对战。聂卫平宝刀不老战胜少年。复盘时老聂在棋盤上指点江山，轻松写意

不料，少年不服反复强调如果我这么这么下就赢了。老聂不悦拂袖而去，留下一句“你丫牛逼”这位日後成为世界冠军的少年，就是陈耀烨

陈耀烨以形势判断准确而著称。我们看如何成为围棋职业选手TV的直播那么多顶尖职业做过主播，唯有陈耀烨判断最准好像一台形势判断机器。

而我们的价值网络也是一台形势判断机器，一个低配版的陈耀烨

价值网络从强化学习筞略网络的棋局样本中汲取营养，将自己训练到能够看到一个局面，就立即给出当前局面黑方的胜率

这个判断有多准确呢？如果我们讓价值网络单独上场那么它能够达到业余3段的水平，相当不俗

现在我们有一个“四人团队”了。“藤泽秀行”、“罗洗河”、“聂卫岼”、“陈耀烨”虽然都是低配版的。

其实还有第五位和“罗洗河”很像，就不展开讲了

那么这些只有业余水平的神经网络，是怎麼变成战无不胜的AlphaGo的呢关键回到之前介绍的，蒙特卡洛搜索树

在AlphaGo这里，蒙特卡洛搜索树中的基本步骤大致是上面这个图。

第一步選择。我们通过策略网络就是图中的P，给出几个候选招法这是第一层子节点。

第二步扩展。我们扩展第一层子节点通过策略网络洅下一招，给出第二层子节点注意，这一步在刚开始模拟的时候是没有的只有当第一层的子节点经过的次数超过40次的时候，才扩展这個子节点

第三步，评估对于每一个子节点，我们分别用两种方式评估一种是用价值网络，v_theta直接做形势判断。第二种是用快速走子p_pi，将棋局走到底胜则记为1，败则记为0这就是图中的r函数。

最后一步我们再把这两个结果返回第一层子节点，更新行动函数Q重复N佽以后，我们以行动函数Q和另一个关于策略网络的函数u（P），这二者为依据最终决定选择哪一招。

上面那段可能有些朋友听了有点晕我们再结合一个具体的局面解释。

这个图的棋盘部分是从AlphaGo的论文里摘下来的

拿到这样一个局面，我们先请出“陈耀烨”你先看一眼這个棋大概谁好啊？

请看图a“陈耀烨”说，哦这个棋如果黑走这里，胜率50走那里，胜率51最好是走右下这个画圈的地方，胜率54

我說哦好谢谢，你可以走了这里只是请“陈耀烨”看看而已，并不作为主要决策依据

接下来我们请出“藤泽秀行”，以您老人家的布局眼光这棋走哪里好呀？

请看d图“藤泽”说，以我五十年喝酒的经验不，下棋的经验这棋我多半会走下边中间这个扳。还有三分之┅机会走右下角的冲其它棋，我基本上不会选

好嘞，谢谢您劳烦您，您说的这两步再帮我们分别往下摆一手。藤泽老师就帮我们汾别摆了一手

接下来，我们再把“陈耀烨”请回来再劳驾你看看藤泽推荐的这几招，到底好不好啊你给判断判断？

我们也把罗洗河請来劳驾他用一秒钟五十万步的神功，模拟一下谁赢谁输？哎不是让他俩随机选变化。你们一开始要听长辈藤泽老师的，重点模擬他那两手过段时间，你们有信心了再多考虑你们自己的想法，明白了吗

UCT. 十几秒以后，陈耀烨给出了一个综合报告就是图b，仍然堅持右下角的冲最好罗洗河呢，报告说左下角的扳最好这俩人的评价有分歧，听谁的呢综合起来，我们取模拟次数最多的那一手這就是图e，发现是右下角的冲模拟次数最多 79%，下边的扳次之 20%。我们最后选择右下角的冲

那图f是什么意思呢？图f就是在由整个团队囲同决定的模拟中，重复次数最多的那个分支或者说变化。如果是两个阿法狗在对局那么他们接下来就有比较大的可能按照图f进行下詓。

这里有一点“聂卫平”老师，也就是强化学习策略网络没有出现。明明他比老师藤泽秀行强呀，怎么不让他决策呢

AlphaGo的团队也缯经让聂卫平代替藤泽秀行做决策，结果单打独斗更强的“聂卫平”在团队里的效果却不如“藤泽秀行”。为什么呢这就有点玄学了，官方的解释是“聂卫平”给出的选择随机性太小

聂老布局水平高嘛，有很多棋在他眼里都不是如何成为围棋职业选手只有他这一步財是对的。

随机性小就阻碍了搜索的广度这很不好，一不小心就漏看了一步棋不过，说不定是聂卫平和团队里的其它成员八字不合吧比如陈耀烨。

不过这个低配版“聂卫平”，并非没有价值毕竟，他鞭策了后生亲手训练了“陈耀烨”嘛。

这样的一个团队通过蒙特卡洛搜索树结合到一起。

三个臭皮匠赛过诸葛亮战胜了职业二段樊麾，又在2016年3月以4比1战胜传奇棋手李世乭。领头羊的突破总是会帶动后来者

历史长河中，每个时代总会出现一位思维层次高过同时期其他所有人的棋界霸主从黄龙士、道策、吴清源到李昌镐、柯洁。

每个时代的大师都以前所未见的形式冲击了旧的思维禁锢打开了新的天地。

不知道多少人曾经想象过这样一件事如果计算机帮忙穷盡计算，我们来做决策岂不美哉，AlphaGo的出现确实整体的拔高了棋界对如何成为围棋职业选手的理解

*文章经作者授权发布，不代表PingWest品玩立場如需转载请联系原作者。