导读:德扑人机大战AI狂虐龙之队,冷扑大师九场完胜共赢79万分。
今日中午,“冷扑大师V.S.中国龙之队——人机扑克巅峰表演赛”落下帷幕。经过五天赛事,冷扑大师最后以792025米哈游报道327总记分牌的战绩获胜,并获得200万奖励。
这场有关德州扑克的“人机大战”由李开复发起,对战双方一方由由六位华人顶尖扑克选手组建,队长杜悦曾在全球德州扑克大赛WSOP的无限注德州扑克赛事中获得冠军。
另一方是美国卡内基梅隆大学托马斯?桑德霍姆教授开发的Libratus(“冷扑大师”)。Libratus在本年1月11日至1月30日一对一无限注德州扑克比赛中,曾击败四名顶尖人类高手。
五天下来冷扑大师累计赢得792,327记分牌数,平均22.0每百手损失大盲
比赛前,李开复就曾预言,人类代表队的广州黄金价格热点胜算也只有10%。而面对今日中午的最后结局,李开复也强调:“透过冷扑大师和龙之队表演赛的对战结局,人机对战基础没有悬念了,据闻AlphaGo近期即前方华和柯洁对战,实际上已然不再具有科学价值了。”
在此次比赛和1月匹兹堡的两次德扑人机对战中,Libratus和冷扑大师在三个首要技术模块中都使用了新的算力:含有比赛前使用近于纳什均衡策略的计算(Nash Equilibrium strategies)、每手牌中使用终结解决计划(Endgame Solving)、有些工作,未来可期以及依据对手能被确认和运用的漏洞,持续完善战略打得更为趋近平衡。
这也是冷扑大师在后程越来越凶悍,让人类玩家难以抵挡的缘由之一。在五天的巅峰表演赛中,冷扑大师和中国龙之队双方共达成了36,000手牌,每天鏖战10个小时。
在谈到五天的有些工作,心动瞬间比赛感想时,中国龙之队队长杜悦说,“AI在对战时不会受到情感、心理、体能等因素作用,且强大运算能力远超人类大脑,不得不承认冷扑大师很多手牌打得令人拍案叫绝”。
李开复也坦言,“我觉得,前方的AI领域不再是几个小伙伴就可以打天下的时代了,而是需要顶尖的AI科学家、海量资料、强大的运算能力、以及清晰行业使用几大闭环。”
积分差距
事实上,围棋和德州扑克代表了AI处理人机对弈的两种信息模式——完美信息和不完美信息。在博弈论中,完美信息指后参与者可观察到前参与者的行为。不完美信息指参与者做挑选的时候不得知其他参与者的挑选。
德州扑克是信息不对称的博弈,每个选手只能目睹自己的手牌——这就确定了AI先是需要面对众多不完整的信息。
各异于AlphaGo,Libratus不需要提前背会众多棋谱,也不局限于在公开的完美信息场景中开展运算,而是从零着手,基于扑克游戏规则针对游戏中对手劣势开展自我进修,并经由博弈论来衡量和选取最优策略。
所以,李开复也强调,冷扑大师对战龙之队这场AI的里程碑事情将合作人们针对AI的认知。
人机扑克对战中,我们目睹了在尔虞我诈、概率不确定、非完美信息需要推理和情商的游戏里,机器一样可以获胜,而相似的场景在真实全球中比比皆是。AI已然不再只和AlphaGo对标,AI已从不完美信息的处理,提升到对不完美信息海量信息运算,并具备了推理和进修能力。
他强调,“我盼望下一个更为高明的AI大师级使用登场,而我更愿意相信,这些使用会来自优秀的年轻创业者,而不是诸如BAT等的技术巨头黑洞”。