如何提前计算国际跳棋步骤多步?

100格国际跳棋在多少个回合只动王不动兵算和_百度知道
100格国际跳棋在多少个回合只动王不动兵算和
每次都轮到同一方走棋,去试图赢棋或者争取和棋了; 2)所有棋子都被吃光的一方判负。你所说的情况。结合胜负规则,就要根据自己的子力和棋力。 3)如果棋盘上出现三只王棋。 4)如果棋盘上出现两只王棋,要根据实际情况去适用和棋规则。如果出现这种情况,双方棋手每人最多再走5步棋后。1)如果相同局面第三次重复出现,就不会出现双方各走各的情况,或一只王棋和一只普通棋子,对局结果作和,而没有走动任何一只普通棋子,双方棋手每人最多再走16步棋后,或一只王棋和两只普通棋子对对方单王棋的局面; 结合以上的规则。 2)在连续25个回合中,对局结果作和:1)所有的棋子被封堵住而无法走棋的一方判负,双方只移动过王棋,对局结果作和,对局结果作和,无法完成棋局的情况了,或两只王棋和一只普通棋子,也没有吃掉任何一子没有规定要求任何一方不能靠边走,或一只王棋对对方单王棋的残局
其他类似问题
为您推荐:
国际跳棋的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁10千瓦以下的三相异步电动机的启动电流是多少?应该如何计算并选取空气开关?
10千瓦以下的三相异步电动机的启动电流是多少?应该如何计算并选取空气开关?
09-08-29 &
大自然保护志愿者
三相异步电动机的启动电流是额定电流的4~7倍,空气开关一般选三相异步电动机额定电流的2~2.5倍,再选接近计算电流的空气开关。选择电机控制设备,一般不考虑启动电流。
请登录后再发表评论!如何看待 Google 围棋 AI AlphaGo 击败欧洲围棋冠军?
一个月前,DeepMind创始人Demis Hassabis曾说道很快会有关于围棋研究的惊喜,而1月28日的《Nature》杂志即将以封面论文的形式介绍Google旗下人工智能公司DeepMind开发的一款名为AlphaGo的人工智能,它已经击败了欧洲围棋冠军,并将于3月与世界冠军李世乭对战。该程序采用了两个深度神经网络,policy network与value network,极大地降低了需要考虑的搜索空间的复杂度,前者降低搜索的广度,后者降低搜索的深度,很像人脑在下围棋时凭直觉快速锁定策略的思维。 这么说起给一点时间,巅峰的吴清源,李昌镐这类人物(即使不断学习)也是下不过电脑的了? (我指的电脑就是2015一台中等配置的PC这样,不是服务器集群,类似普通电脑跑Pocket Fritz 4)Update: (3-15-2016) Alphago 最终4:1战胜Lee SedolNature 原文:Nature 科普文章:Deep learning 的介绍:AlphaGo项目主页:
按投票排序
282 个回答
他们确实做得很好,能让4子胜Zen和CrazyStone,把职业二段打成五比零,实力不容质疑。就期待着今年三月他们和李世石的比赛了。从算法上来说,这篇文章并没有太多新意,主要是通过大量的训练数据,包括以往的棋谱和自我对局,把性能堆出来。他们训练了一个走子的神经网络(这个和我们的办法是一样的,但我们的文章主要在这上面作了改进),又训练了一个可以评估局面的网络(这个我们还没有),然后在蒙特卡罗树搜索中同时使用这两个网络。后者用了三千万局的自我对局(self-play)的结果训练。为了避免过拟合,每局只随机选了其中一个局面,然后让网络预测对局结果(胜或负)。三千万局不是个小数字,大家可以算一下一刻不停地下,15分钟一局需要多久才能下完(大约是855年)。这个规模我说实在没有想到过,谷歌在这方面是很有优势的。最后,他们的default policy也是经过处理的,能够两微秒走一步而且准确率也不错。还有一些小细节就不一一赘述了。总之,谷歌的做法充分利用了大数据+深度学习的优势,而几乎完全没有用到围棋的领域知识,所以若是以后棋力能再往上走,我也不会惊讶。其实这篇文章在去年11月份就已经投稿,但是因为《自然》杂志严格的审查制度,现在才出来。我们在11月的时候还只有3d的水平,蒙特卡罗树搜索还有各种问题,12月初的时候已经听到了谣言,当时我惊得话都说不出来了,然而就算这样,还是决定一点一点做,抓紧圣诞和新年的时间,把性能提高到5d的水平。我们还差一点拿了一月KGS锦标赛的冠军(Zen和DolBaram都参加了),可惜最后因为程序错误而超时,输了一局赢棋给Zen,得了第三名。谷歌的文章有20个作者,明显是下了血本,前两位都是计算机围棋界的大牛,一作David Silver是计算机围棋和强化学习的顶级专家,整个博士论文就是做的围棋; 二作Aja Huang以前写过多年围棋软件,自己又是AGA 6D的水平。相比之下我们只有两个人(
),只做了半年,中间还要穿插VQA等其他项目,而且都没有做过围棋的经验,想想有些差距也是不冤了。现在回想起来,要是他们决定去年10月份战胜了樊麾后马上公开,或者我们再拖一会儿,决定不投ICLR而等到今年的ICML,那我们就被灭得连渣都不剩了(笑)。这回虎口拔牙,能从中拿到一些贡献,为公司增加一些影响力,算是比较成功的。至于单挑全军的感觉如何——我的回答是很爽 :)Facebook高层也给了我们很大的支持,昨天我们组的老大Yann LeCun发了文章介绍我们的工作,扎克伯格还特地发了一篇文章点到了我的名字,赞扬我们的努力,对此我非常感动。最后,我们的arXiv更新了[文章见],欢迎大家有空看看。谢谢~
-“珍珠港遭到空袭!这不是演习!这不是演习!这不是演习!”——日凌晨-从昨晚开始,一条声称谷歌AI在19路棋盘上分先战胜樊麾二段,并且论文已登上Nature的消息刷爆了朋友圈。一开始,就像以往的那些“大新闻”一样,大家都认为是标题党,甚至某业余7段还查验到其论文尚未被Nature审核通过。然而随着时间的推移,越来越多的近距离详细消息传来,开始有人相信消息的真实性。围棋圈内的各种微信群、朋友圈都在不断的争论,相信的人越来越多,不信的人也坚持己见。终于,在接近凌晨两点,又一条最新报道来了,这次还附带着棋谱:(虽是真消息,但稍有标题党之嫌)至此,看到棋谱的所有人几乎都相信了:人工智能AlphaGo,实现了里程碑式的一步。-首先,在客观上要肯定AlphaGo实现的水平进步。从昨晚开始,一条声称某AI在19路棋盘上分先战胜范麾二段,并且论文已登上Nature的消息刷爆了朋友圈。一开始,就像以往的那些“大新闻”一样,大家都认为是标题党,甚至某业余7段还查验到其论文尚未被Nature审核通过。然而随着时间的推移,越来越多的近距离详细消息传来,开始有人相信消息的真实性。围棋圈内的各种微信群、朋友圈都在不断的争论,相信的人越来越多,不信的人也坚持己见。终于,在接近凌晨两点,又一条最新报道来了,这次还附带着棋谱。以往最强的围棋AI,大致是CrazyStone、Zen和银星围棋这几个。而AlphaGo在让以上几个程序(无银星围棋)4子的情况下,取得了80%左右的胜率。我们据此基本可以判断,人工智能将自己的水平上限一下子提高了5个子。樊麾二段,虽然以欧洲冠军闻名于世,但其实圈内谁都知道他是一名中国旅欧教学的职业棋手。虽然远离东亚职业一线,但樊老师的水平仍然是不容置疑的,他依然有着职业的水平(虽然是较弱的职业),一般的业6仍然是比他不上的。AlphaGo在正式比赛中对樊老师5:0(棋谱已可见),据说加上非正式比赛的总分为8:2(已确认),再加上棋谱里AlphaGo显示出的惊人的表现,我们可以认为,人工智能在围棋上的水平已经迈入了职业的大门。(最新:据多位顶尖棋手对棋谱的鉴定,认为AlphaGo的水平应该在业余强6段到弱职业之间,离人类顶尖大概还有一先到两先的差距)(对于西方围棋包括樊老师的相关介绍,可见)说的更明白点,之前的AI在蒙特卡洛算法的帮助下虽然取得了革命性的进步,战胜了绝大多数的人类,但人类中能战胜那些AI的人数可能仍然在近百万的量级。而自今日(其实已经是三个月前了)的AlphaGo起,能在围棋盘上战胜AI的人类人数可能已经不到千人了。按照
老师的说法,这个消息在相关研究圈内应该早就不是新闻了。甚至回想一下昨天扎克伯格在facebook上突然发声支持自己的研究团队,也因为是知道了google团队的成果即将在一日内公示,所以想要在舆论中抢占一个位置。(田老师参与的facebook的研究团队,是google现在最大的竞争对手,田老师他们使用的方法应该不太一样,虽然他们暂时落后,但我同样也很期待他们的下一步进展)总之,这真的不是演习。-接下来谈点个人对人工智能的粗浅理解。近些年来,尽管在蒙特卡洛算法的帮助下,AI实现了革命性的进步,达到了能战胜大部分人类的水平(中等业余5段),但随着摩尔定律的走向终点(据某it界前辈指点,摩尔定律并非舆论所说的即将结束,而是转换为了新的形式),计算机硬件的发展速度在旧有的道路上暂时无法按以前的速度继续爆炸发展下去,大家都认为仅凭蒙特卡洛算法是无法帮助AI战胜人类的。依据个人的理解,我曾在中将围棋的思维过程分解为四步的演进:常识→棋感→计算→判断。大约一年前,我曾和李喆六段就此问题进行过简单讨论,当时我认为蒙特卡洛算法的成功主要在于为人工智能建立了“棋感”,而以往的人工智能只在“常识”和“计算”方面具有天然优势。在蒙特卡洛算法之前,虽然计算机凭借强大的计算力可以积累大量“常识”,但由于“棋感”的缺失,人工智能无法对计算方向进行有效的筛选,最终就不免沦于蛮力搜索。而蛮力搜索虽然可以在一定程度上实现高水平的“计算”,甚至很多其他棋类都在这一环节上被人工智能打败,而由于围棋的过度复杂和摩尔定律结束对计算机发展前景的限制,走到这一步仍然无法让人工智能战胜人类。(注:上图为计算机眼中的国际象棋落子思路,而下图为计算机眼中的围棋落子思路,来自谷歌deepmind官网(注:上图为计算机眼中的国际象棋落子思路,而下图为计算机眼中的围棋落子思路,来自谷歌deepmind官网)而蒙特卡洛算法出现后,凭借大量储备的棋局,通过胜负概率来判断下一步着点以作为计算方向,极大的提高了计算的效率,所以AI的水平才实现了革命性的进步。而这次的AlphaGo,使用了深度神经网络与蒙特卡洛树状搜索相结合的方法。依据已经能看到的Nature上的论文,研究者们在AlphaGo中加入了两个深度神经网络,以value networks来评估大量的选点,而以policy networks来选择落子,并且开发了一种新式算法来结合蒙特卡洛算法和以上两个神经网络。(注:上图为AlphaGo使用的神经网络结构示意图,来自原论文)在这种结合下,研究者们结合参考人类职业对局的监督式学习,和AI大量积累自对弈实现的深度学习,来训练和提高AI的围棋实力。在蒙特卡洛算法之后,我看到了新的天地。这种结合以及新式的思路,让人感到前景无限。-最后谈一谈,我认为我们应该保有的态度。这里,我首先想引用李喆六段在今天早上说的话:“我们已来到两个时代的连接处,无论你是否愿意,这都是一个需要接受的事实。工具无善恶,善恶在人心。未来的路通往何方,将由我们自己决定。”从凌晨到早上,朋友圈里的评论区一直争论不休,甚至某世界冠军一直在说“不信”,毕竟大家在没有看到板上的钉子之前,从情感上都是不愿意相信的。直到另外两位一线棋手告诉他,已经可以看到棋谱了......面对这个事件,接下来将会有很多的爆炸性新闻报道,以及各种各样姿势的讨论。我们要知道:一.人工智能的确实现了很大的进步。这次的进步可能是革命性的,这次新闻宣称的AI取得的成绩并不是“标题党”。二.人工智能还没有战胜人类(什么所谓“人类最后的骄傲陷落”都属于“标题党”)。但AI已经朝着这个方向迈出了一大步,而且是在很多人在蒙特卡洛之后不看好AI下一步发展的情况下,来了一个突然袭击(谷歌从开始研究到出成果再到发布,一直憋一个大新闻憋这么久也真是能忍)。三.人工智能战胜人类的时点,可能比很多人想象的要来的更早了。不是之前设想的生物计算机或者量子计算机出现后,甚至都不是新材料制成的处理器取代硅晶片之后,而是在这个时代就有可能出现了。也许是五十年后,也许是二十年后,甚至可能是十年后。从小学时开始,我就痴迷于许峰雄教授对于计算机国际象棋项目的研究和成就,一直追踪到97年“深蓝”战胜卡斯帕罗夫。(就是在那之后不久,我才从国际象棋转投了围棋......)(注:上图为第一个打败人类的计算机国际象棋程序“深蓝”之父——许峰雄)从中学时代到大学时代,我一直追寻着许教授的动态和他撰写的各种文章、书籍,他写的《“深蓝”揭秘》()被我翻的都烂了,我甚至在中学时代一直想以此作为未来的求学从研的方向。许教授离开IBM、前往亚研院并声称准备致力于作为最终问题的计算机围棋难题之后,我仍然一年年心心念念的期待着许教授的后续动作。然而十多年过去,等来的却是无数的后来者。这也挺好,人类就是不缺后来者。看许教授对当年研究过程的讲述,最大的感受就是:其实并不是计算机打败了人类,而是人类打败了人类。大量的计算机专家,配合大量的国际象棋职业棋手,在算法上不断革新,再搭乘上摩尔定律的东风,不断的失败再重来、输了再修正,最终才解决了计算机国际象棋难题。卡斯帕罗夫,是败给了数以百计的人类专家的智慧的合力。围棋也会是一样,计算机——今天说人工智能更合适,战胜人类的那一天迟早会来,大部分人都从来不否认这一点。争论,始终在于这一天的早晚。而棋手和围棋从业者们,出于可以理解的感情,总是希望并认为这一天不会来的那么快,但他们绝对不会拒绝甚至仇视这种进步。其实我看到的很多人,都一直期待并赞许着人工智能的进步,甚至很多职业高手还亲身参与和帮助着计算机围棋项目的研究。我们努力打造着一个“大玩具”,一个能战胜自己的“大玩具”。所以最终的成功,是我们人类自己的成功,而不应该对计算机感到恐惧。同时,这“大玩具”也不只是好玩而已,人工智能对于现代乃至未来科技的发展有着极大的意义,这意义甚至会超出当年原子弹研究的后续红利。所以不要害怕,不要烦恼,让我们期待着人工智能在围棋上战胜人类的那一天的到来吧。我之前一直认为在我有生之年是看不到这一天的,然而现在看来,我错了。我一点也不失望,反而感到很兴奋,很激动,并且期待着以google和facebook为首的前沿研究团队们的进一步的表现。最后的最后,恭喜谷歌,恭喜围棋,恭喜人类。-
左右互搏,青出于蓝而胜于蓝?
—阿尔法狗原理解析这些天都在没日没夜地关注一个话题,谷歌人工智能程序AlphaGo(国内网友亲切地称为“阿尔法狗”)以5:0击败欧洲职业围棋冠军樊麾二段,在围棋游戏中达到了人类职业棋手的水平。 什么!!19年前计算机击败国际象棋冠军卡斯帕罗夫的情景还历历在目,现在计算机又要来攻克围棋了吗!?虚竹在天龙八部里自填一子,无意中以“自杀”破解“珍笼”棋局,逍遥子方才亲传掌门之位。难道以后“阿尔法狗”要出任逍遥派掌门了?1933年,东渡日本19岁的吴清源迎战当时的日本棋坛霸主、已经60岁的本因坊秀哉,开局三招即是日本人从未见过的三三、星、天元布阵,快速进击逼得对方连连暂停“打卦”和弟子商量应对之策。随后以“新布局”开创棋坛新纪元。难道阿尔法狗会再造一个“新新布局”?作为一个关心人工智能和人类命运的理科生,近些天刷了好些报道,记者们说“阿尔法狗是个‘价值神经网络’和‘策略神经网’络综合蒙特卡洛搜索树的程序”,但我觉得光知道这些概念是不够的。我想看看“阿尔法狗”的庐山真面目。准备好棋盘和脑容量,一起来探索吧?围棋棋盘是19x19路,所以一共是361个交叉点,每个交叉点有三种状态,可以用1表示黑子,-1表示白字,0表示无子,考虑到每个位置还可能有落子的时间、这个位置的气等其他信息,我们可以用一个361 * n维的向量来表示一个棋盘的状态。我们把一个棋盘状态向量记为s。当状态s下,我们暂时不考虑无法落子的地方,可供下一步落子的空间也是361个。我们把下一步的落子的行动也用361维的向量来表示,记为a。这样,设计一个围棋人工智能的程序,就转换成为了,任意给定一个s状态,寻找最好的应对策略a,让你的程序按照这个策略走,最后获得棋盘上最大的地盘。如果你想要设计一个特别牛逼惊世骇俗的围棋程序,你会从哪里开始呢?对于在谷歌DeepMind工作的黄世杰和他的小伙伴而言,第一招是:“深度卷积神经网络”深度卷积神经网络早在98年就攻克了手写数字识别,近些年在人脸识别、图像分类、天气预报等领域无往而不利,接连达到或超过人类的水平,是深度学习火遍大江南北的急先锋。我们现在看到的Picasa照片自动分类,Facebook照片识别好友,以及彩云天气高精度天气预报(软广出现,不要打我)都是此技术的应用。这等天赐宝物,如果可以用来下围棋,岂不是狂拽酷炫吊炸天?所以2015年黄世杰发表在ICLR的论文[3]一上来就使出了“深度神经网络”的杀招,从网上的围棋对战平台KGS(外国的qq游戏大厅)可以获得人类选手的围棋对弈的棋局。观察这些棋局,每一个状态s,都会有一个人类做出的落子a,这不是天然的训练样本&s,a&吗?如此可以得到3000万个样本。我们再把s看做一个19x19的二维图像(具体是19x19 x n,n是表示一些其他feature),输入一个卷积神经网络进行分类,分类的目标就是落子向量a’,不断训练网络,尽可能让计算机得到的a’接近人类高手的落子结果a,不就得到了一个模拟人类棋手下围棋的神经网络了吗?于是我们得到了一个可以模拟人类棋手的策略函数P_human,给定某个棋局状态s,它可以计算出人类选手可能在棋盘上落子的概率分布a = P_human(s),如下图:红圈就是P_human觉得最好的落子方案。每一步都选择概率最高的落子,对方对子后再重新计算一遍,如此往复就可以得到一个棋风类似人类的围棋程序。这个基于“狂拽酷炫”深度学习的方案棋力如何呢?不咋地。黄世杰说P_human已经可以和业余6段左右的人类选手过招,互有胜负,但还未能超过当时最强的电脑程序CrazyStone,距离人类顶尖玩家就差得更远了。所以,为求更进一步,黄世杰打算把P_human和CrazyStone的算法结合一下,师夷长技以制夷,先击败所有的其他围棋AI再说。等等,CrazyStone的算法[1,5]是什么?哦,那个算法是黄世杰的老师Remi Coulum在2006年对围棋AI做出的另一个重大突破:“MCTS,蒙特卡洛搜索树”蒙特卡洛搜索树(Monte-Carlo Tree Search)是一种“大智若愚”的方法。面对一个空白棋盘S0,黄世杰的老师Coulum最初对围棋一无所知,便假设所有落子方法分值都相等,设为1。然后扔了一个骰子,从361种落子方法中随机选择一个走法a0。Coulum想象自己落子之后,棋盘状态变成S1,然后继续假设对手也和自己一样二逼,对方也扔了一个筛子,随便瞎走了一步,这时棋盘状态变成S2,于是这两个二逼青年一直扔骰子下棋,一路走到Sn,最后肯定也能分出一个胜负r,赢了就r记为1,输了则为0,假设这第一次r=1。这样Coulum便算是在心中模拟了完整的一盘围棋。Coulum心想,这样随机扔骰子也能赢?运气不错啊,那把刚才那个落子方法(S0,a0)记下来,分值提高一些:新分数= 初始分+ r我刚才从(S0, a0)开始模拟赢了一次,r=1,那么新分数=2,除了第一步,后面几步运气也不错,那我把这些随机出的局面所对应落子方法(Si,ai)的分数都设为2吧。然后Coulum开始做第二次模拟,这次扔骰子的时候Coulum对围棋已经不是一无所知了,但也知道的不是太多,所以这次除(S0, a0)的分值是2之外,其他落子方法的分数还是1。再次选择a0的概率要比其他方法高一点点。那位假想中的二逼对手也用同样的方法更新了自己的新分数,他会选择一个a1作为应对。如法炮制,Coulum又和想象中的对手又下了一盘稍微不那么二逼的棋,结果他又赢了,Coulum于是继续调整他的模拟路径上相应的分数,把它们都+1。随着想象中的棋局下得越来越多,那些看起来不错的落子方案的分数就会越来越高,而这些落子方案越是有前途,就会被更多的选中进行推演,于是最有“前途”的落子方法就会“涌现”出来。最后,Coulum在想象中下完10万盘棋之后,选择他推演过次数最多的那个方案落子,而这时,Coulum才真正下了第一步棋。蒙特卡洛搜索树华丽转身为相当深刻的方法,可以看到它有两个很有意思的特点:
1)没有任何人工的feature,完全依靠规则本身,通过不断想象自对弈来提高能力。这和深蓝战胜卡斯帕罗夫完全不同,深蓝包含了很多人工设计的规则。MCTS靠的是一种类似遗传算法的自我进化,让靠谱的方法自我涌现出来。让我想起了卡尔文在《大脑如何思维》中说的思维的达尔文主义[6]。
2)MCTS可以连续运行,在对手思考对策的同时自己也可以思考对策。Coulum下完第一步之后,完全不必要停下,可以继续进行想象中的对弈,直到对手落子。Coulum随后从对手落子之后的状态开始计算,但是之前的想象中的对弈完全可以保留,因为对手的落子完全可能出现在之前想象中的对弈中,所以之前的计算是有用的。这就像人在进行对弈的时候,可以不断思考,不会因为等待对手行动而中断。这一点Coulum的程序非常像人,酷毙了。但黄世杰很快意识到他老师的程序仍然有局限:初始策略太简单。我们需要更高效地扔骰子。如何更高效的扔骰子呢?用P_human()来扔。黄世杰改进了MCTS,一上来不再是二逼青年随机掷骰子,而是先根据P_human的计算结果来得到a可能的概率分布,以这个概率来挑选下一步的动作。一次棋局下完之后,新分数按照如下方式更新:新分数= 调整后的初始分+ 通过模拟得到的赢棋概率如果某一步被随机到很多次,就应该主要依据模拟得到的概率而非P_human。所以P_human的初始分会被打个折扣:调整后的初始分= P_human/(被随机到的次数+ 1)这样就既可以用P_human快速定位比较好的落子方案,又给了其他位置一定的概率。看起来很美,然后实际操作中却发现:“然并卵”。因为,P_human()计算太慢了。一次P_human()计算需要0.3ms,相对于原来随机扔骰子不到1us,慢了3000倍。如果不能快速模拟对局,就找不到妙招,棋力就不能提高。所以,黄世杰训练了一个简化版的P_human_fast(),把神经网络层数、输入特征都减少,耗时下降到了2us,基本满足了要求。先以P_human()来开局,走前面大概20多步,后面再使用P_human_fast()快速走到最后。兼顾了准确度和效率。这样便综合了深度神经网络和MCTS两种方案,此时黄世杰的围棋程序已经可以战胜所有其他电脑,虽然距离人类职业选手仍有不小的差距,但他在2015年那篇论文的最后部分信心满满的表示:“我们围棋软件所使用的神经网络和蒙特卡洛方法都可以随着训练集的增长和计算力的加强(比如增加CPU数)而同步增强,我们正前进在正确的道路上。”看样子,下一步的突破很快就将到来。同年2月,黄世杰在Deepmind的同事在顶级学术期刊nature上发表了“用神经网络打游戏”的文章[2]。这篇神作,为进一步提高MCTS的棋力,指明了前进的新方向:“左右互搏,自我进化”红白机很多人小时候都玩过,你能都打通吗?黄世杰的同事通过“强化学习”方法训练的程序在类似红白机的游戏机上打通了200多个游戏,大多数得分都比人类还好。 “强化学习”是一类机器学习方法,Agent通过和环境s的交互,选择下一步的动作a,这个动作会影响环境s,给Agent一个reward,Agent然后继续和环境交互。游戏结束的时候,Agent得到一个最后总分r。这时我们把之前的环境状态s、动作a匹配起来就得到了一系列&s,a&,设定目标为最后的总得分r,我们可以训练一个神经网络去拟合在状态s下,做动作a的总得分。下一次玩游戏的时候,我们就可以根据当前状态s,去选择最后总得分最大的动作a。通过不断玩游戏,我们对&s,a&下总得分的估计就会越来越准确,游戏也玩儿得越来越好。打砖块游戏有一个秘诀:把球打到墙的后面去,球就会自己反弹得分。强化学习的程序在玩了600盘以后,学到这个秘诀:球快要把墙打穿的时候评价函数v的分值就会急剧上升。
黄世杰考虑给围棋也设计一个评价函数v(s),在P_human()想象自己开局走了20多步之后,不需要搜索到底,如果有一个v(s)可以直接判断是否能赢,得到最后的结果r,这样肯定能进一步增加MCTS的威力。黄世杰已经有了国外的qq游戏大厅KGS上的对局,但是很遗憾这些对局数量不够,不足以得到局面评价函数v。但是没关系,我们还可以左右互搏自对弈创造新的对局。机器学习的开山鼻祖Samuel早在1967年就用自对弈的方法来学习国际跳棋[7],而之前的蒙特卡洛搜索树也是一个自对弈的过程。但是现在黄世杰不仅有一个从人类对弈中学习出的P_human这样一个高起点,而且有一个神经网络可以从对弈样本中学习,有理由相信这次会有更好的结果。先用P_human和P_human对弈,比如1万局,就得到了一万个新棋谱,加入到训练集当中,训练出P_human_1。然后再让P_human_1和P_human_1对局,得到另外一万个新棋谱,这样可以训练出P_human_2,如此往复,可以得到P_human_n。P_human_n得到了最多的训练,棋力理应比原来更强。我们给最后这个策略起一个新名字:P_human_plus。这时,再让P_human_plus和P_human对局,在不用任何搜索的情况下胜率可达80%,不加任何搜索策略的P_human_plus和开源的MCTS相比也有85%的胜率。自对弈方法奏效了。既然P_human_plus这么强,我们先代入到MCTS中试试,用P_human_plus来开局,剩下的用P_human_fast。可惜,这样的方法棋力反而不如用P_human。黄世杰认为是因为P_human_plus走棋的路数太集中,而MCTS需要发散出更多的选择才好。看来,P_human_plus练功还是太死板,还没有进入无招胜有招的境界。没关系,黄世杰还有局面评价函数v(s)这一招,有了v(s),如果我可以一眼就看到“黑棋大势已去”,我就不用MCTS在想象中自我对弈了。但考虑到P_human_plus的招法太过集中,黄世杰在训练v( )的时候,开局还是先用P_human走L步,这样有利于生成更多局面。黄世杰觉得局面还不够多样化,为了进一步扩大搜索空间,在L+1步的时候,干脆完全随机掷一次骰子,记下这个状态SL+1,然后后面再用P_human_plus来对弈,直到结束获得结果r。如此不断对弈,由于L也是一个随机数,我们就得到了开局、中盘、官子不同阶段的很多局面s,和这些局面对应的结果r。有了这些训练样本&s,r&,还是使用神经网络,把最后一层的目标改成回归而非分类,黄世杰就可以得到一个v( )函数,输出赢棋的概率。 v( )可以给出下一步落子在棋盘上任意位置之后,如果双方都使用P_human_plus来走棋,我方赢棋的概率。如果训练v()的时候全部都使用P_human不用P_human_plus呢?实验表明基于P_human_plus训练的v,比基于P_human训练的v’,棋力更强。强化学习确实有效。万事俱备,只欠东风。准备好P_human(),MCTS,以及评价函数v(),黄世杰和小伙伴们继续进击,向着可以和人类专业选手过招的围棋AI前进:“阿尔法狗”黄世杰准备在MCTS框架之上融合局面评估函数v()。这次还是用P_human作为初始分开局,每局选择分数最高的方案落子,下到第L步之后,改用P_human_fast把剩下的棋局走完,同时调用v(SL),评估局面的获胜概率。然后按照如下规则更新整个树的分数:新分数= 调整后的初始分+ 0.5 * 通过模拟得到的赢棋概率 + 0.5 * 局面评估分前两项和原来一样,如果待更新的节点就是叶子节点,那局面评估分就是v(SL)。如果是待更新的节点是上级节点,局面评估分是该节点所有叶子节点v()的平均值。如果v()表示大局观,“P_human_fast模拟对局”表示快速验算,那么上面的方法就是大局观和快速模拟验算并重。如果你不服,非要做一个0.5: 0.5之外的权重,黄世杰团队已经实验了目前的程序对阵其他权重有95%的胜率。以上,便是阿尔法狗的庐山真面目。上图演示了阿尔法狗和樊麾对弈时的计算过程,阿尔法狗执黑,红圈是阿尔法狗实际落子的地方。1、2、3和后面的数字表示他想象中的之后双方下一步落子的地方。白色方框是樊麾的实际落子。在复盘时,樊麾觉得位置1的走法更好。深度学习、蒙特卡洛搜索树,自我进化三招齐出,所有其他围棋ai都毫无还手之力。99%的胜率不说,“阿尔法狗”还可以在让四子的情况下以77%的胜率击败crazystone。“阿尔法狗”利用超过170个GPU,粗略估算超过800万核并行计算,不仅有前期训练过程中模仿人类,自我对弈不断进化,还有实战时的模拟对局可以实时进化,已经把现有方法发挥到了极限,是目前人工智能领域绝对的巅峰之作。后记围棋是NP-hard问题,如果用一个原子来存储围棋可能的状态,把全宇宙的原子加起来都不够储存所有的状态。于是我们把这样的问题转换为寻找一个函数P,当状态为S时,计算最优的落子方案a = P(s)。我们看到,无论是“狂拽酷炫”的深度学习,还是“大智若愚”的MCTS,都是对P(s)的越来越精确的估计,但即使引入了“左右互搏”来强化学习,黄世杰仍然做了大量的细节工作。所以只有一步一个脚印,面对挑战不断拆解,用耐心与细心,还有辛勤的汗水,才能取得一点又一点的进步,而这些进步积累在一起,终于让计算机达到了人类职业选手的水平。据说谷歌接下来要增加20倍的算力,动用全球分布式集群,超过2000个GPU与前世界冠军李世乭决战。如此,计算机的棋力会提高20倍吗?从黄世杰团队公布的数据看,增加GPU并不能够带来棋力的线性增长,最终会有一个极限。陈景润攻克(1+2)时,就是把当时所有的数学分析方法都用到了极限,但没有理论上的重大突破,还是很难攻克“哥德巴赫猜想”。这和今天的“阿尔法狗”有些类似。围棋世界冠军,前几天刚刚击败李世乭的19岁中国围棋天才少年柯洁也是这样认为。 因为一盘棋走一步需要0.3ms(P_human_plus遍历整个棋盘的时间),谷歌用大规模集群进行并行化计算,自我对弈3000万盘棋生成训练集只需要一天左右的时间[4],所以如果对弈更多棋局可以提高棋力的话,黄世杰他们早就做了。目前的方案可能已经达到了CNN网络能力的极限。完整的阿尔法狗不仅需要生成训练集,还要用训练集来生成局面评估函数v(),而这还使用了两周时间,这也许是阿尔法狗并没有能够完全使用强化学习,而仅仅是在整个过程的一小部分使用左右互搏的原因。左右互博用的还不够多,这是一个遗憾。如果存在一个“围棋之神”,一个已经穷尽了所有的围棋步法的“上帝”,那他每一步都是最优应对。一些顶尖棋手在接受采访时表示[8],“围棋之神”对战人类选手可能还有让4子的空间,也就是说,就算下赢了人类,计算机也还有很大进步的空间。面对一个如此高难度的问题,计算机和人类都无法在有限时间内找到完全的规律(柯洁和李世乭比赛是一人有3小时时间思考,阿尔法狗今年3月准备和李世乭进行的比赛则是每人2小时)。计算机和人都是在对问题做抽象,然后搜索最佳策略。要下好围棋所需要的能力已经接近人类智力的极限:要有大局观、要懂得取舍、还要会精打细算,治理一个国家也不过如此。计算机可以学会围棋,就能学会很多一样难度的技能。在未来,也许围棋、自动驾驶、同声传译都会被一一攻克。甚至在数论、量子场论等领域,深度学习和搜索相结合,可能也会带给我们更多惊喜,比如攻克“哥德巴赫猜想”。那么,人工智能是否真的会很快登顶呢?虽然在智力方面AI有希望登峰造极,但高智商只是人类众多能力的一个方面。吴清源先生在方寸之间纵横无敌,但仍然漂泊一生,被命运推着前进。早年他做段祺瑞的门客,棋盘上把段祺瑞打的落花流水,弄得下人都没有早饭吃;后来东渡日本,三易国籍,留下许多遗憾。如果把“强人工智能”比作一个天才少年,虽然智商爆表,但其他方面还需要我们悉心加以引导。创造出“德才兼备,匡扶济世”的人工智能,才是我辈真正应该努力实现的目标。一起加油吧,科学少年们!To
beyond !参考文献:1, EfficientSelectivity and Backup Operators in Monte-Carlo Tree Search2, Human-level control through deep reinforcementlearning3, Move Evaluation In GO Using Deep Convolutional Neural Networks4. Masteringthe Game of Go with Deep Neural Networks and Tree Search5. A Survey ofMonte Carlo Tree Search Methods6. 大脑如何思维—智力演化的今昔7. Some Studies in Machine LearningUsing the Game of Checkers.II-Recent Progress 8.最后的最后,允许插播我司的招聘广告一则:———————————————————-彩云天气急需运维工程师一名,我们在毗邻皇家园林的两层别墅式公寓办公,有钢琴和温水泳池。需要你的帮助,我们才能每天稳定快速的计算出上亿次天气预报,用人工智能帮到更多普通大众。
粗粗看了一下,AlphaGo还是有很多新意的,与Facebook的CNN+MCTS还是很大不同的。AlphaGo的要点在RL而不是dl,dl只是一个学习网络参数的工具。它的特点在policy的学习上,本质上是一个Actor-Critic的RL架构(value和policy分离,Bias-Variance Tradeoff),这延续了David Silver最近的dpg风格,不过又和一般的Actor-Critic不同,它分为3个stage来训练整个网络(监督和非监督训练policy,监督训练value),和Actor-Critic通常的cascade不同。policy search用了mcts,与通常的uct不同在于评估用于value和policy的加权。总得说来,非常优秀的工作。
围棋,发源于中国。有着非常古老的历史。规则极其简单,但是难度非常大。一直被公认为最复杂的棋类游戏。计算机围棋,的发展史,大家可以再去搜索一下。特别提一下,2008年已经去世的陈志行,中山大学量子化学教授。他退休后,开始研究计算机围棋。从1993年起,共10次获得电脑围棋世界冠军:1993年11月获应氏杯冠军,年连续三年包揽FOST杯、应氏杯冠军,2000年获心智奥林匹克电脑围棋赛冠军,2001年3月在汉城获SG杯国际电脑围棋赛冠军,2002年10月在贵阳获国际电脑围棋赛冠军。陈志行的这些业绩使我国在电脑围棋这个领域上领先于世界。记者曾经问他,你觉得计算机围棋能发展到什么程度?他回答说,我毕生的目标,就是希望我让程序9子,程序可以赢我。可以想想当年程序的水平是如何。陈志行是业余高手,大概业余五段。那个年代的围棋,都是基于规则系统和一些局部的搜索。当然也包括开局库。这也是当年陈志行时代的做法。他是用汇编来编写代码的,为了充分优化计算性能。Static analysis of life and death in the game of Go, written by Ken Chen & Zhixing Chen, 20 February 1999后来的典型代表是gnu go,一个开源的系统,代码非常庞大,框架灵活,方便添加各种规则,并进行试验测试。第二个时代,是由一种叫做蒙特卡洛的算法来突破的。这个算法出来之后,迅速取得了决定性的提升。迅速让程序提高一个大的台阶。Monte-Carlo Go, written by B. Bouzy and B. Helmstetter from Scientific Literature Digital Library大致是什么意思的。很简单,其实所谓蒙特卡洛,就是随机走。以往国际象棋的alpha-beta search在围棋中不能应用的关键,是因为围棋无法设计评估函数。来评估当前局面。但是,围棋的终局是非常容易评估的,数一下子数,谁多,就谁赢。这个算法,就是让当前局面随机走子,走到终局。通过大量这样的仿真实验,来统计当前局面的胜率,来实现评估。当然,简单的随机走,效果并不好。上面论文的进展,主要是引入了一些规则——来限制随机走子的范围。让“随机”不那么随机,更靠谱一些。这幅图就是这样一个search的例子,被称之为UCT search。显然,目前最右边的那个走法,胜率更高,那会以更高的概率去探索。更低胜率的走法,也会以一定的概率去尝试。第三个突破,是深度神经网络的应用。dnn(deep cnn)被广泛应用在语音、图像等领域,对于弱特征(比如像素,声音片段)表现出了极强的特征组织能力。现在也有更强的计算能力,和优化算法,能够去train得动这样的复杂网络。围棋的“型”,其实也有这样的一些特点。后来就有人用深度卷积网络(dcnn)去train高手的对局,学习其中的型——以及一些全局信息。Sutskever, Ilya and Nair, Vinod. Mimicking go experts with convolutional neural networks. InArtificial Neural Networks-ICANN 2008, pp. 101–110. Springer, 2008.后面又有一些人去做了很多改进。一个比较大的进展是:ICLR 2016上,Facebook的tianyuandong,发了一篇paper:BETTER COMPUTER GO PLAYER WITH NEURAL NETWORK AND LONG-TERM PREDICTION他只用纯粹静态评估,完全不用search,战胜了前面讲到的mcts(蒙特卡洛树搜索)系的程序。这说明,dnn在表达能力和泛化能力方面是非常强劲的。为了学习大量棋谱。tianyuandong用一台4GPU的机器,跑了2个星期才完成训练。但是他在和mcts结合方面做得还不够充分。其实,这个时候,已经能够看到程序突破的端倪了。今天,是历史的突破,当然,也许会算在3月份。或者再晚一些。Google在search的候选、仿真和剪枝方面,都充分的优化和使用神经网络。并让程序自学习——因为mcts的结果,可以做静态评估训练的样本。在候选的网络上面,和Facebook tianyuandong是类似的,同时他们还做了一个全局评估的网络,用以静态评估全局——而不是某一个候选的走法。同时,还做了集群化。并投入大量人力、硬件。在这几方面全部做到位。更为可怕的是,google用了非常大量的自学习数据(两千万),这需要多大的集群来跑呢。这确实不是一般的研究机构以及个人能够搞定的。投入是很大的。这件事情,更加让人们看到,深度神经网络的优势,能够看到,机器可以做更多的事情。我询问了一些做计算机围棋圈内的朋友,可能不少人心情复杂。mail list里面,只有简单的一句话回复:game over虽然激动,但是,他们恐怕要失业了。只能再换方向、找工作了。他们失业了,再过些年,你会失业么?
链接:这个答案力求客观评价AlphaGo的实力。因为本来就是我自己写的,就不全文引用了。。弱小和无知不是生存的障碍,傲慢才是。——《三体:死神永生》AlphaGo战胜樊麾二段对于围棋界可谓惊天动地的大事。很多棋友和圈内人士都很关心AlphaGo的棋力到底有多强。我不是职业棋手,自认为如果对战AlphaGo,需要先恭敬地摆两子求指导。对于计算机围棋的了解,我也不如专业人士。不过通过各方面搜集到的证据,我能够对AlphaGo的棋力下一个相对客观的结论。当然,这个评价是针对截止到去年10月,与樊麾二段对战时的AlphaGo. 至于这几个月AlphaGo会进步多少,除了谷歌的研究人员,大概没有人能准确知道。先上结论:AlphaGo的实力,大致上相当于中国的强业余6段。如果AlphaGo与世界范围内活跃的职业棋手(过去一年内参加正式比赛超过12盘)一起排名,大致能排到250名-300名之间。换句话说,AlphaGo的实力已经强于很多水平稍弱的职业棋手,但是大概要稍弱于中国业余棋界的最顶级棋手,或者大致相当。那么我们就来看一看依据。首先是不同职业棋手的评价:时越九段(世界冠军,中国棋院等级分第二位):  说实话,我昨天看到这个消息的时候是不信的,虽然我现在还是不能理解电脑是怎么去学习的,但是事实摆在眼前,这5盘棋电脑下的让我惊叹,我认为水平已经迈入了职业的门槛。虽然和顶尖棋手还差的很远,但按照这个进步速度,3月份的对局,我想李世石也不会赢的太轻松。樊麾二段(法国国家队总教练,AlphaGo的对手):第一盘输了之后,我这个心态就发生了很大变化,因为第一盘毕竟觉得可能比较轻松,然后发现他的官子、各方面的掌控能力很强之后,我第二盘就有点(心态)失衡。第二盘打了一个大勺之后,整个进程就不对了。围棋毕竟不能用单纯的技术来说,一是一、二是二、三是三,因为毕竟有发挥的问题。不过我确实下的也不是很好,当然了,下的时候心态也是一个最主要的原因。不管怎么样,AlphaGo的棋力确实已经很强了。这几盘棋呢,可以说我自己发挥不佳,但不能说不是我的真实水平,下得不好。主要是在某些方面觉得被他彻底克制住了,尤其心理负担很重,总感觉下到最后一读秒就会打勺子,这就导致我的棋下的很急。(以上来自微信公众号“喆理围棋”,作者是李喆。 )柯洁九段(世界冠军,中国棋院等级分第一位,当前的世界第一人):果壳网:假如是不知情地去看AlphaGo和樊麾的这五盘棋,你会猜到AlphaGo不是人类吗?柯洁:完全看不出来。这五盘棋我也仔细地看了一眼,但我没看名字,不知道谁执黑谁执白,完全看不出谁是AI。感觉就像是一个真正的人类下的棋一样。该弃的地方也会弃,该退出的地方也会退出,非常均衡的一个棋风,真是看不出来出自程序之手。因为之前的ZEN那样的程序,经常会莫名其妙的抽风,突然跑到一个无关紧要的地方下棋。它这个不会。它知道哪个地方重要,会在重要的地方下棋,不会突然短路。这一点是非常厉害的。果壳网:就电脑的表现来看,你对它布局,中盘,官子三个阶段的评价,分别是什么水平?柯洁:按照我的评价,它的水平大概就是冲职业段之前的水平,虽然职业还到不了,但是无限接近于职业了。关于这几个阶段,我的感觉是都差不多,非常均衡,也看不出哪个地方是机器,这个很恐怖(笑)。当然这只是看了五盘棋,也看不出它的短板来,可能是因为对手发挥得太糟糕了(笑),我也看不出来具体的哪里好哪里不好。(以上来自果壳网对柯洁的采访:)芈昱廷九段(世界冠军,中国棋院等级分第四位)  问:今早的大新闻是谷歌围棋AlphaGo5比0赢了樊麾二段,是否已看过棋谱?  芈昱廷:知道后感觉很刺激,看棋谱觉得实力相当于冲段少年。 (以上来自新浪网。)李喆七段(全国冠军):Google的围棋AI已经具有职业水准,从棋谱初步判断是顶尖棋手让先-让先倒贴目的水平,离战胜人类还有一小段距离。但这是三个月前的棋谱... 以Google机器学习堆数据的速度,今年三月对决李世石相当值得期待。(来自李喆的微博)刘星七段(全国冠军):第一是棋形很正,第二是失误相当的少。如果把它看作一名业余顶尖的棋手,做到这两点,就已经具备了相当的实力。 (赵守洵:星爷还没有把它看作职业高手) (刘星:这个很难说)(以上来自,大概在11分40秒左右。)以上来自不同一流职业棋手的评价,表面看上去有一定差异。有的说已经具备职业水平,有的说是业余顶尖水平,其实都差不多是一个意思。在中国,顶尖业余棋手确实具备职业水平,对战顶尖职业棋手差不多也就是在让先到让先倒贴目之间。为了进一步说明这一点,我又要搬出“民间等级分”,nmcgw版世界围棋等级分了。这是我见过的统计数据来源最详尽,同时原理简洁、有效的一版等级分,甚至强过韩国裴博士发布的世界等级分。目前此版等级分每周一更,发布在tom围棋论坛。虽然业余棋手的等级分现在不被公布(曾经是公布的),不过按照nmcgw本人的说法,顶尖业余棋手(以中国的业余四大天王,胡煜清、王琛、马天放、白宝祥为例)大致在2350分到2400分之间。换算成世界排名,就是在160名-220名之间,与顶尖的女子职业棋手大致相当 。作为参考,参与nmcgw等级分排名的大概有860位活跃的职业棋手(包括日韩台在内)。同时,这几年的晚报杯职业业余对抗赛(),由顶尖职业对抗顶尖业余的比赛中,比分大致是这样的(剔除了聂卫平、刘小光参加的台次):女子职业-顶尖业余 (分先): 3-5;男子职业-顶尖业余 (让先):18-8;那么李喆所说的“让先-让先倒贴目的水平”,也与业余顶尖棋手相差无几。其实这些评价已经足够说明问题了,不过我还是稍微有点担心。会不会是人类棋手因为惯性思维,没有看到AI某些隐藏的强大之处?我们从AlphaGo研究者的角度来看看这个问题。这是AlphaGo研究团队在Nature上发表的论文中的一张图。我一开始并不知道这个等级分是什么意思,直到我突然想起来,法国学者Remi Coulum曾经发布过一个围棋等级分这是AlphaGo研究团队在Nature上发表的论文中的一张图。我一开始并不知道这个等级分是什么意思,直到我突然想起来,法国学者Remi Coulum曾经发布过一个围棋等级分。Remi Coulum是Nature上论文二作Aja Huang 的老师,也是AlphaGo问世之前最强围棋AI, CrazyStone的作者。那么有理由相信AlphaGo的团队用的就是这一版等级分来评价的。Remi版等级分是Elo等级分的一个变种,规则要比ELO等级分更加先进。但是Remi版等级分的最大弱点是,统计的棋局不足够详尽。Remi版等级分统计了自上世纪80年代初以来的52000盘对局,但仅仅是弘通围棋网收录的职业对局就有超过十万局,而且弘通的这个数字好像也是不完全版。无论如何,Remi版等级分还是具有相当参考意义的。回到上面这张图。根据原文附录上的数据,AlphaGo团队对于在一台计算机上运行的AlphaGo的评价是2890分,而与樊麾对战的版本(1202CPU, 176GPU)为3140分。樊麾在去年十月对战时是2908分,在Remi版等级分上排在第632名(共832人)。按照ELO等级分的规则计算,樊麾对AlphaGo的胜率大约是20%。事实上,AlphaGo对樊麾的十盘棋比分正好是8-2。那么我们再看看3140分大概是什么水准。在Remi版等级分中,3140分对应排名是281名-283名(并列)。如果对战当前的李世石(3515分),则只有11%的胜率。至于图表上的“5p”(职业五段),没有太大意义,因为当前中日韩三国的职业段位与实力并不直接相关。将这个3140分转换到nmcgw版等级分中去,大致上相当于2310分。回顾一下,中国业余围棋四大天王的等级分是在分之间, 也就是说AlphaGo对战四大天王有42%左右的胜率。这与之前各位一流职业棋手的评价,“顶尖业余棋手”、“冲职业段之前的水平”、“具有职业水平”、“让先-让先倒贴目之间”,是完全吻合的。当然,如果是以这个水平对战李世石,五番棋大战,想要赢一盘都是相当困难的。AlphaGo确实已经摸到了职业的门槛。网上某些称“樊麾放水,下得不如普通业余5段”、“战胜欧洲冠军就像战胜国足”等论调实在不够客观。至于3月份AlphaGo与李世石的大战,我仍然谨慎地看好李世石。3140分到3500分,顶尖业余到顶尖职业,一个天赋超群的人类棋手也要花五年左右的时间。行百里者半九十,从之前围棋AI在程序定型以后的学习速度来看,几个月的时间不足以让AI再完成一次飞跃。当然,如果到时候被AlphaGo打脸,也是一件很可能发生的事,毕竟开发团队自称有五成把握(咦这个flag是不是很熟悉?小李:你说有五成把握,是一百成里有五成吗?)。各位看官可以收起对人工智能的傲慢心态,去期待一场或许是火星撞地球的大战。—————————————————1.30更新————————————————根据Nature原文附录,将估计的数据更新为准确的数据。借此地做一个神棍的预测。AlphaGo将于三月对战李世石之时达到nmcgw等级分2560分的水准,相当于原中国棋院等级分职业九段的门槛分数(虽然这个现在没什么实际意义了)。2560分对应的世界排名是40名(对应棋手:邬光亚六段)。相应地,AlphaGo对李世石的单局胜率有32%。预测AlphaGo-李世石五番棋比分:2-3。 五盘棋分别为阿法狗:胜负胜负负。预测依据:樊麾二段接受采访时的“你们就等着看好戏吧”眼神,和开发者自信的“五成把握”。在2019年1月以前,AlphaGo将不能超过柯洁的水平 (nmcgw等级分2800分)。预测依据:瞎猜的。
一大早起来被各种新闻刷屏了,看来大家对围棋很感兴趣。Nature那篇文章的可读性很强。解棋类游戏面临两个问题:搜索深度太深、广度太广。太深,通过构造适当的估值函数来剪枝;太广,通过构造适当的policy来聚焦。我不清楚之前的围棋AI是怎么实现上面两点。Google说,我们来试试神经网络吧!于是通过职业棋谱学了一个policy,精确度55%;同时学了一个局部常型的policy,为了之后自己和自己下用的,精确度24%。这样我们的程序就可以模仿着高手们的谱着下棋,而不是胡乱落子了。紧接着是构造评估函数。Google说,我们来试试神经网络吧!(你能不能换一个台词……)就是让计算机根据policy不断地和自己下棋,然后学习判断局面。Alpha Go碾压其他AI是没有问题的,和职业二段Fan Hui五番棋证明Alpha Go已经进入职业水平。不过BBC肯定是有些标题党了。应该还是有不少人(包括我)对Alpha Go的能力有所怀疑,没有关系,我们等等三月份看僵尸流小李怎么虐Alpha Go吧(笑)。值得一提的是Alpha Go对战Fan Hui所思考的情况比深蓝对阵卡斯帕罗夫少得多得多(thousands of times fewer positions),因为Alpha Go凭“直觉”挑的待选步更好,对形势的判断能力更高。从这一点说,非常像人类。此外深蓝的估值函数是手写的,而Alpha Go的估值函数是他自己学出来的。背景介绍完毕,下面带点私货。大题要小作,小题要大作。就棋谈棋没什么意思,我来谈谈这背后反应出来的人工智能的问题,也是我对于近五十年人工智能发展的批判:我们经常在没有理解问题的状态下解决了问题,更糟糕的是我们满足于这个现状。我没有要贬低谁,没有丝毫这个意思。从工程的角度说,发现问题并解决问题,就是我们的目标。Google是公司,运用新技术解决问题,就是他们的目标。但是我们做科学研究的,眼界还要再高一些。人工智能发展了五十年,如今到了收获的时候。我们在图像识别,NLP等等领域做到了50年前做不到甚至想不到的事情。但是回望过去,半个世纪前,我们提出人工智能的那个最原始的动机是什么?是理解并提高人类智能(to understand and improve human intelligence)。半个世纪过去了,我们在这个方向上,这个Science而不是Engineering的维度上,真正前进了多少呢?Tom M. Mitchell在2006年的The Discipline of Machine Learning一文中提出了一些机器学习从长远角度看的学术问题,第二个问题就是:Can machine learning theories and algorithms help explain human learning?我同意,Google开发的Alpha Go程序是一个里程碑,标志着NN技术越发的成熟;击败职业棋手的五盘棋背后蕴含着的其实是15篇、25篇学术论文,发现、聚焦并攻克了一系列学术技术难题。这是我们的成就,也是我们人类整体的骄傲。但另一方面,不要忘记了我们的初衷,我们要理解人类智能,我们要改进人类智能。在我们拿着机器学习这把利刃横扫天下的时候,不要忘记了最初铸剑的那份冲动和动机。
我这个大概算题外话:围棋软件水平大幅提升,依我看来,这是个极不好的消息,甚至可能成为危害围棋发展的存在。
拿象棋来参照一下就可以了。目前象棋软件的现状是,目前的高配笔记本+正版棋软的组合,实力已经超出了目前水平最高的棋手。
带来的一个很大的问题是利用软件作弊的泛滥。
软件作弊这个问题大概是从05年开始进入棋手们的视野当中的。05年7月底,北京,威凯杯一级棋士赛。安徽余四海以绝对优势夺冠,从而晋升为象棋大师。从那时候起,关于余四海用软的质疑从来就没有停止过。其实在比赛进行的过程中,已经有人在水木社区发帖,怀疑他使用软件了,赛后也有人用当时最好的软件之一”象棋奇兵“分析他的对局,认为他的对局与软件招法吻合度很高。并且余四海比赛过程中在大热天穿厚衣服且一只手插兜里的动作让人生疑。
来看看余四海当时8胜3和夺冠时都赢了些什么人物。
资料来源广东象棋网。还有一盘棋谱没录入,是余四海胜张学潮。
熟悉象棋圈子的大概一眼就能看出,余四海赢的这些人的名字的分量。
一般来说,新晋象棋大师都会受到采访,在《棋艺》杂志上登出个人小传,并加上一到两盘棋的自战回顾的。尽管没有实打实抓住余四海用软的证据,《棋艺》杂志态度很微妙:那年女子组冠军葛慧莹的小传在杂志上看到了,但对于余四海,则仅仅是一个“豆腐块”提及。
在余四海夺冠后不久,他在全国团体赛九连败,让人更加确证了对他用软的怀疑。
具体的就不多说了。来看看广东象棋网网友”奇兵零四“对于部分用软事件的总结贴吧:
其实从目前这条软件胜欧洲围棋冠军的新闻来说,对于围棋来说,用软的危机已经存在了。如果软件被应用在冲段少年的当中,会是什么结果呢?在竞争如此惨烈的定段赛中,谁能保证冲段少年的家长们不铤而走险?
另外,这个软件危机在象棋界,早已不只是业余界的事情了。专业棋手被怀疑的也有,处于风口浪尖的莫过于全国冠军,等级分第一人王天一了。
2012年11月,全国冠军孙勇征发过一条微博:”不会说谎的人,全盘皆是谎言,但擅于说谎的人,只会在关键的地方捏造谎言。“
包括王天一本人在内的许多人认为,孙特大这条微博在说王天一在比赛中用软件作弊。王天一微博回应此事,并提出与孙特约战十番棋以证清白。孙特回应:”我前不久发的微博,原不是针对某人的。但想不到居然有人会把事情硬往自己身上套。而且还指名道姓提出约战,顺便问下,约战究竟想证明什么??既然这样,本人乐意奉陪。“
这事后来不了了之了。但对王天一的质疑,也从来没有停止过。
不久之前还出了一个事情。全国冠军陶汉明老师估计是喝多了,在一个两百多人的微信群里发了很长的语音,狠批了软件作弊的现象。这说的可是在全国最高级别的比赛里接二连三作弊啊。
新浪爆出来了。里面的聊天记录看起来有点乱,但可以看得出来软件把职业圈子搞得有多乱。
来看看在这个事件以后,孙浩宇大师和全国冠军郑惟桐及孟辰大师的表态:王天一这个事情真相是怎样的,官方没定调,我们这等平民就不说啥了。抛开王天一这个事情不说,对于围棋比赛而言,等软件水平提高到了顶尖职业棋手都难以匹敌的时候,类似的猜疑新任冠军是否使用了软件作弊的乱象,依然可能出现。 而在理论上,完全存在棋手通过软件作弊夺取全国冠军的可能。
而在围棋的顶级赛事上,围棋比赛的奖金和象棋相比,又要高出那么多。
从象棋目前的发展现状来看,软件对于棋手训练和水平提升,起到了极为强大的效果——软件的分析基本上可以给出棋局的正解,可能存在的其他变化以及优劣,许多以前要靠人力解拆的变化,现在只需要开个软件跑一跑,就能得到答案。这是软件存在的好处。但是在其他方面带来的忧患极多。软件作弊已经成为危害象棋发展的最大敌人。
所以我对围棋软件的态度,还是希望它发展不起来。 但愿围棋不要走上象棋走着的这条奇葩之路,至少,希望这一天可以来得晚一点。
没怎么整理,想到哪写到哪,将就着看看吧……:补充部分内容高水平棋软对于棋本身的好处,我认为主要体现在两方面:1.相当于有了一个随时可以请教的高水平的指导老师,这对于大众整体水平的提高是有显著的好处的;2.对于专业棋手而言,比自己更强大的软件也会成为很好的复盘帮手,而对于自身研发新式布局的检测,推翻以往定式,软件都体现出很明显的优势。对于棋的挖掘,有了软件的辅助,进程大大加快了。但软件带来了除了作弊以外的麻烦也是很明显的。1.软件的出现,使得棋在更大程度上依赖于布局准备。有大师曾经感叹:现在下棋都越来越成为一个熟练工种了。这个话的其中一个缘由,就是现在用软件把布局拆得稀烂的倾向,尤其是现在的年轻棋手。由于软件的水平高出人太多,一旦布局被准备上了,人在软件拆解的招法下很难有抵抗的能力,实战结果凶多吉少。所以现在专业队用软拆布局都狠,拆起来很多时候就变成了软件水平和电脑配置的比拼,某种意义上说,在布局拆解上,可以说是以机器为主人脑为辅了。最新式布局现在都不是在最高级比赛里下出来的,都是在网络上(弈天棋缘为代表)上,机器下出来的。
用软拆布局短期收益率太高,不拆的话则可能吃很大的亏,因此用软件不断拆解布局是无法避免的了。
带来的可能结果是什么呢,除了大师所说的感觉下棋都要成为熟练工种以外,棋的观赏性也降低了。以象棋为例就是,今年碧桂园杯上赵鑫鑫先和王天一那盘棋,基本上全盘都是软件布局库里的内容。精准是精准,但总觉得从观赏性的角度上讲,缺了点东西。
毕竟我们还是更加希望看到一些“人”下的棋,而非机器。2.软件的出现基本毁了网络对弈平台。在网上下棋,基本上网站上高分数段的,都是软件挂机(或者人机)。网上下棋一般有几个目的,消遣,练棋,检验。首先软件对纯粹消遣者肯定是不利的,软件对人碾压式的胜利,来消遣的人应该会有部分人感觉不爽吧。
从练棋的角度说,软件这个水平,只适合当极高水平棋手的陪练了,一般人不会找软件陪练的,只会用软件找答案。如果跟软件对练就可以了,那我为什么要上网下呢?
检验的话,一般有两种可能性,一种是想看看自己的极限,在纯人里可以达到什么水平,另一种是想验证下布局,比如有些新布局用出去,人一般会怎么应对?有没有事先没有预料过的应招?出现了这种盲点,赶紧想办法解决。而软件这种对于人来说几乎无懈可击的存在,哪有让你检验和锤炼飞刀的机会?3.部分人对于名手的不敬某特大的话:“我让个马的棋,开了个软件说我下得臭。”有了软件,在看全国冠军比赛的时候,感觉就跟开了上帝视角一样。软件具有给局面打分的功能,冠军哪步下得跟软件不一样,下出来以后软件打的分数变低了,围观群众的本能反应就是“噢全国冠军脱软了,分数低了,这步有问题”。在一些棋友群里,对特大已经出现了一些不敬的称呼。这种不敬,对于有软件开上帝视角的人来说是更加容易出现的。“反正冠军跟我一样,也都那回事,下不赢软件的。”4.“软件出现以后,我变得没那么喜欢下棋了”
这句话不是我说的,是某位国家大师说的。
大概也可以想象那种心境,如果你也有一项自己无比热爱的事业,这份事业已经是自己的毕生追求,但自己却明知道自己天赋再高也好,拼尽全力也罢,你终究没有办法接近一个现有的高度的话。
如果你也是这样,大概你也可以想象出那种心灰意冷以及绝望的感觉吧。以上都是强软出现后,围棋界可能出现的现象(嗯其实就是象棋界的现状)。也许很多人会觉得技术是无罪的,只取决于使用它的人。这个观点我是认同的,但客观事实就是,软件出现以后出现了这一系列我认为很不利于棋类事业发展的现象。因此我是不希望棋软发展起来的。另外,我认为我的观点跟认为技术无罪的人并没有矛盾的地方。
大概不管我们怎么想,围棋软件终究会有超越人类的一天的吧。我希望在围棋软件对纯人棋手取得压倒性胜利的时候,可以有客观现状狠狠打我的脸。
这题的答案串居然有个真大牛,必须要膜拜一下+++++具体技术细节讲太多其实也没多大用,深度学习这种东西,调参数麻烦的很简单说下alphago的基本原理并不完全是深度学习,而是深度学习+蒙特卡洛树这种棋类问题,最核心的解法依然是树结构的搜索,这个始终不变但是早期的思路,用穷举的方法在围棋上是一个无解的问题,因为运算量相对于当前的硬件水平可认为是无穷那么alphago主要工作在于减小运算量这个很多新闻也都说了,就是两个深度学习的网络,一个是policy,一个是value说下谷歌宣传视频里面的介绍思路alphago下棋的“思考”主要分为两类一是,当前这个子的可能走法二是,每一步之后的思考深度policy主要针对第一点,也就是大大减少当前这个子的落子地点value则是针对第二点。一般搜索的话,树的深度太大,计算量上是infeasible的,value旨在减少这种搜索深度。举个简单的例子,比如曾经可能计算机会“考虑”之后200步怎么走,但是现在经过优化之后,可能只需要考虑20步即可,而虽然只有以前的10%,但是效果却又远远好过200步科普一点来讲,他们的工作主要就是使用深度学习来“辅助评估”这就有点类似于金庸一些小说里,如果你和一个对手盲目的切磋,可能不会占优势。但是深度学习就像你身旁站了一位师傅,你一边出招他一边指点你,这样,可以让你少走很多弯路,最后说不定还可以战胜你的对手。+++++当然,既然是机器学习,免不了大量的训练过程如今深度学习都是这个套路,海量的样本用来训练。而且深度学习本身就是这种特性,样本量越大,模型越鲁棒还是以谷歌自己的那个宣传片为例,作者说的是一天可以100万次对局的训练量想想看,从fanhui到李世石,这中间保有的训练时间那也是有至少4个月的,120天,一天100万对局。。。这基本上可说已经穷尽了人类历史上所有的围棋对局了。。。+++++另外,今天有点意外的是看到柯洁也接受果壳的采访谈到了这个事情浏览了下这个答案串,发现也有人提到“如果人类被AI战胜,那么围棋还有什么意义”其实这倒没什么,深蓝是1997年的东西了,但是至今国际象棋不也好好的活着呢吗围棋对局最大的意义又不是在于输赢本身上,而是在于过程上如果你仅仅只是在乎一个游戏人类和机器到底谁能赢,那你专门设计一些机器不能取胜的游戏类别不就好了。现在计算机在模式识别上还有很长的路要走,你要真想体现人类的优越性,光是买火车票那一大堆验证码就能虐的计算机死机冒烟了另外还有一点,即便alphago战胜了全人类,那本质上也是人类战胜了人类,而非机器战胜了人类你能说因为你算数算的比一个计算器慢,你就不如那个计算器了吗?
Facebook:我们现在研究的AI将有希望打败顶尖高手。十小时后。Google:Done!(大家当段子看就好,切勿上纲上线,我本人也是很崇拜田渊栋老师的。)
已有帐号?
无法登录?
社交帐号登录}

我要回帖

更多关于 国际跳棋规则 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信