...44天经历“200年”游戏时间,DeepMind游戏AI登上《自然》杂志 _

智东西（公众号：zhidxcom）

编 | 云鹏

智东西10月31日消息，谷歌DeepMind开发的AlphaStar人工智能，在《星际争霸2》游戏中击败了欧洲服务器99.8%的人类玩家，目前该结果已于10月30日在《自然》杂志（Nature）发表。

《星际争霸2》是由动视暴雪（Activision Blizzard）出品的一款经典的即时战略（real-time strategy）游戏，以操作的快速以及复杂著称。据了解，顶级玩家的每分钟操作数超过300次，也就是每秒操作5次之多。AlphaStar比赛时随时面临的动作选择种类多达10的26次方。下面是对Nature、Venturebeat等外媒对此次事件报道的部分内容编译。

下面是部分对战录像节选：

▲AlphaStar在进行“战前准备”

▲AlphaStar与人类玩家激战正酣

▲AlphaStar取得胜利

一、欧洲玩家最强劲的对手

今年夏天，《星际争霸2》的玩家迎来了一个非常棘手的挑战者。谷歌DeepMind研发的AlphaStar AI在这款游戏的欧洲服务器上的等级已经到了宗师（grandmaster），在90,000名玩家中排名前0.15％。

击败99.8%的欧服玩家，44天经历“200年”游戏时间，DeepMind游戏AI登上《自然》杂志

▲AlphaStar与人类玩家对战

该结果于10月30日发表在《自然》杂志上，意味着AI在《星际争霸2》中的表现已经可以和最顶级的玩家抗衡。

DeepMind联合创始人兼CEO Demis Hassabis说：“星际争霸15年来一直是AI研究人员面临的巨大挑战，因此非常高兴能看到这项工作被《自然》杂志认可。”“这些令人印象深刻的成果标志着，我们向着创造可加速科学发现的智能系统（intelligent systems that will accelerate scientific discovery）这一目标又迈出了重要的一步。”

《星际争霸2》是一款在全球范围内非常受欢迎的即时战略游戏，游戏中，玩家可以选择三种派系之一（人类、虫族、神族），通过发展经济、建立部队、摧毁敌方单位来取得胜利，需要玩家同时进行数量庞大且复杂的操作。

击败99.8%的欧服玩家，44天经历“200年”游戏时间，DeepMind游戏AI登上《自然》杂志

▲比赛中AlphaStar的单位，资源和建筑物的俯视图

DeepMind此前研发的Alpha GO已经成为世界领先的围棋AI，此次又发力操作难度复杂，游戏节奏非常快的《星际争霸2》，无疑表明了DeepMind希望建立一种可以学习任何人类能力的通用型AI（ general AI）的野心。

“我真没想到AI能在这个领域如此快速的超过人类，起码近几年都没有想过。”俄勒冈州立大学科瓦利斯分校的AI研究员Jon Dodge说到。

在《星际争霸2》中，经验丰富的玩家需要同时进行多线操作，包括管理资源，进行复杂的战斗并最终超越对手取得胜利，每分钟的操作超过300次。

DeepMind的AI机器学习技术依赖于人工神经网络，这种网络从大型的数据集中学习并识别出游戏的各种模式，而不是通过特定的指令。

击败99.8%的欧服玩家，44天经历“200年”游戏时间，DeepMind游戏AI登上《自然》杂志

▲该图显示了AlphaStar中使用的每种技术如何影响其性能

2018年12月，DeepMind第一次在实验室里让AlphaStar与职业玩家对抗并进行测试。AI成功击败了两个职业人类玩家。不过后来有批评者指出，这些演示比赛不是一场公平的战斗，因为AlphaStar具有超人的速度和精准度（speed and precision）。

因此，在AlphaStar离开实验室进入欧洲《星际争霸2》服务器之前，DeepMind限制了AI的反应速度，让它更接近人类，使之更加公平。

7月份，玩家们接到了可以和AI一决雌雄的邀请。不过为了比赛的保密性，DeepMind掩盖了AlphaStar的身份，这样有利于玩家把AI当作正常对手，更加真实。

击败99.8%的欧服玩家，44天经历“200年”游戏时间，DeepMind游戏AI登上《自然》杂志

▲AlphaStar与人类玩家对战

“我们希望像盲实验（blind experiment）一样，我们真的非常想在这样的条件下比赛，去真切的体会到，玩家和AI对战最真实的表现。” AlphaStar项目的共同负责人戴维·西尔弗（David Silver）说到。

AlphaStar的训练初见成效：在低分段中它已经可以碾压对手，并且在面对高分段选手的90场比赛中，它赢得了61场。

二、超乎想象的复杂程度

《星际争霸2》的复杂性是AI面对的最大挑战。与国际象棋不同，《星际争霸2》有数百个“单位”（玩家在游戏中可以控制的单位），它们可以实时的同步移动，而不是以有序的回合制方式移动。

棋子每次可以移动的数量和方向是有限的，而AlphaStar随时面对10的26次方种动作可供选择。另外最大的不同就是《星际争霸2》是一种信息不完善的游戏，你大部分时候都看不到对手在做什么，导致你无法预测。

近十年来，很多研究人员都在进行《星际争霸1》和《星际争霸2》两款游戏的AI对抗赛，但是，与AlphaStar不同，这里面大多数的“机器人”都依赖于硬编码规则（hard-coded rules），而不是可以自我训练的神经网络。

击败99.8%的欧服玩家，44天经历“200年”游戏时间，DeepMind游戏AI登上《自然》杂志

▲该图描述了AlphaStar自我训练演变。

AlphaStar项目的共同负责人Oriol Vinyals是来自加州大学伯克利分校AI团队的一员，他们曾在2010年赢得了第一场比赛。Vinyals说：“那时候，我已经开始觉得我们应该进行机器学习，不过为时尚早。”

Vinyals在2016年加入DeepMind，在那里他开始从事AI的研究，这些AI可以教自己如何玩《星际争霸2》。AlphaStar通过学习模仿近一百万种人类游戏来进行培训。

击败99.8%的欧服玩家，44天经历“200年”游戏时间，DeepMind游戏AI登上《自然》杂志

▲DeepMind的AlphaStar自我训练截图

为了进一步改善AlphaStar的表现，DeepMind建立了一个联盟，在这个联盟中，不同的AI版本相互竞争。伦敦帝国学院的AI研究员Kai Arulkumaran说，这种方法对于没有最佳策略的《星际争霸2》这样的游戏以及许多其他现实生活中的AI应用都是非常有意义的。

三、敏锐的玩家

DeepMind对AlphaStar施加了约束，以确保AI是从思维层面超越了人类，而不是只是有更快的反应速度，点击更快。为此，DeepMind将AlphaStar的反应速度限制为“有经验的人类玩家（experienced human players）”。

在这种情况下，经过27天的培训，AlphaStar在欧洲服务器上排名已经跻身前0.5％。

然而，经过50场比赛，DeepMind遇到了障碍。一些玩家已经注意到，《星际争霸2》的游戏对战平台上的三个帐户在相似的时间段内玩了完全相同数量的《星际争霸2》游戏——AlphaStar秘密使用的三个帐户。

在观看这些比赛的重播时，玩家注意到帐户所有者所执行的动作对于人类来说几乎是不可能的。为了应对这样的状况，DeepMind开始使用多种技巧来保持比赛的盲目性，并阻止玩家发现AlphaStar，例如定期更换帐户。

最终版本的AlphaStar依靠总共44天的培训，已经跻身职业玩家之列。虽然无法像国际象棋和围棋那样击败世界上最好的玩家，但DeepMind认为其基准已经达到，并表示已经完成了《星际争霸2》的挑战。

其他AI科学家并不确定AlphaStar可以取得完全胜利。加拿大纽芬兰纪念大学的AI研究人员戴夫·丘吉尔（Dave Churchill）认为，AlphaStar仍然存在许多弱点，比如面对以前从未见过的策略。

他说：“ AlphaStar令人印象深刻，并且绝对是迄今为止所有《星际争霸》系列游戏中最强大的AI系统。” “话虽如此，《星际争霸》系列距离被“解决（solve）”还遥遥无期，而AlphaStar也远没有达到世界冠军水平。”

四、不仅止步于游戏

DeepMind的最终目标不仅是超人类的《星际争霸2》玩家。与AlphaZero一样，目标是利用AlphaStar的经验来开发能够解决社会中一些严峻挑战的系统。

为此，DeepMind参与了很多与健康相关的AI项目，包括在美国退伍军人事务部进行的一项试验，以开发一种能够预测急性肾衰竭（AKI）并识别大多数严重病例的模型。

最近，DeepMind的AlphaFold（一种可以预测复杂蛋白质结构的AI系统）在CASP13蛋白质折叠竞赛中名列98位竞争对手之首。

除了AKI和蛋白质折叠以外，DeepMind在英国NHS研究开发一种算法，用于搜索失明的早期征兆。Alphabet子公司与伦敦帝国学院的英国癌症研究英国帝国中心合作，完善了AI乳腺癌检测模型，这项工作最近扩展到了东京的Jikei大学医院。

“人工智能的发展历史以游戏中的里程碑式成就为标志。自从计算机破解围棋，象棋和扑克以来，《星际争霸》系列游戏已成为共识，成为下一个重大挑战。” DeepMind首席研究科学家David Silver说。

“AlphaStar最大的亮点在于，我们使用通用的学习方法而不是专门定制的解决方案来应对这一挑战，并且在跟人类相同的条件下进行游戏。”

结语：玩家的“梦魇”，AI界的“新星”

有人说，最难的就是超越你自己，DeepMind的AlphaStar就是通过自我训练的方式成就了自我，成功为欧洲众多玩家带去了“噩梦”般的游戏体验。

从谷歌更加长远的规划和项目我们也可以看出，AI的进步可以切实推动人类社会向着更加美好的方向发展，可以解决更多对于人类来说十分“棘手”的问题。

此次AlphaStar只是结束了欧洲之旅，更广阔的世界舞台还在等着它。

原文来自：Nature、Venturebeat

Nature 论文：

https://www.nature.com/articles/s41586-019-1724-z

https://storage.googleapis.com/deepmind-media/research/alphastar/AlphaStar_unformatted.pdf

AlphaStar 对战录像：

https://deepmind.com/research/open-source/alphastar-resources