【烽巢网-科技PRO】
谷歌旗下DeepMind开发的人工智能代理在《星际争霸2》中击败了人类职业选手,这是人工智能领域的第一次。在YouTube和Twitch上的一系列比赛中,AI玩家连续10次击败人类。在最后一场比赛中,职业选手格里戈尔兹·“曼娜”·科明兹为人类赢得了一场胜利。
DeepMind的研究联席负责人戴维•西尔弗(David Silver)在赛后表示:“人工智能的历史被打上了许多重大的标杆性胜利的印记。”“我希望——尽管显然还有工作要做——未来的人们可能会回顾(今天),或许会认为这是人工智能系统所能做的又向前迈进了一步。”
在电子游戏方面打败人类似乎是人工智能开发中的一个小插曲,但这是一个重大的研究挑战。像星际争霸2这样的游戏比像国际象棋或围棋这样的棋盘游戏更难玩。在电子游戏中,人工智能代理无法通过观察每一块棋子的移动来计算下一步棋,它们必须实时做出反应。
这些因素似乎对DeepMind被称为AlphaStar的人工智能系统并不构成多大障碍。首先,它打败了职业球员达里奥·温什(Dario“TLO”Wunsch),然后开始恢复法力。奥运会最初于去年12月在DeepMind的伦敦总部举行,但今天与MaNa的最后一场比赛进行了直播,为人类提供了唯一的胜利。
职业星际争霸评论员形容AlphaStar的表现是“非凡的”和“超人的”。在《星际争霸2》中,玩家在建立基地、训练军队和入侵敌人领土之前,会从同一地图的不同侧面开始。AlphaStar尤其擅长所谓的“微观管理”,即在战场上快速、果断地控制部队的能力。
尽管人类玩家有时能够训练出更强大的单位,AlphaZero还是能够在近距离内智胜他们。在一场游戏中,AlphaStar用一个名为“跟踪者”的快速移动单位获得了大量法力。评论员凯文·“鹿特丹”·范德库伊(Kevin“RotterdaM”van der Kooi)将其描述为“非凡的单位控制,只是我们不太常见”。曼娜在赛后说:“如果我和任何人比赛,他们都不会对跟踪者这么好。”
这与我们在其他高级游戏AI中看到的行为相呼应。当OpenAI的经纪人去年在Dota 2与人类职业选手比赛时,他们最终被击败了。但专家们指出,这些特工再次以一种“清晰而精确”的方式进行表演,这是一种“催眠”。毫不奇怪,快速做出没有任何错误的决定是机器的本分。
专家们已经开始仔细分析这些比赛,并就AlphaStar是否拥有任何不公平优势展开辩论。这位人工智能特工在某些方面步履蹒跚。例如,它被限制在每分钟执行比人类更多的点击。但与人类玩家不同的是,它能够一次查看整个地图,而不是手动导航。
DeepMind的研究人员表示,这并没有提供真正的优势,因为该代理在任何时间只关注地图的一个部分。但是,正如比赛所显示的那样,这并没有阻止AlphaStar同时熟练地控制三个不同区域的单位——评论员们表示,这对人类来说是不可能的。值得注意的是,当MaNa在直播比赛中击败AlphaStar时,AI使用的是受限的摄像机视角。
另一个潜在的痛处是,人类运动员虽然是专业运动员,但却不是世界冠军的标准。TLO还必须玩星际争霸2中他不熟悉的三个种族中的一个。
撇开这个讨论不谈,专家们说这场比赛是向前迈出的重要一步。Dave Churchill,一个长期参与星际争霸AI场景的AI研究人员,告诉the Verge:“我认为代理的力量是一个重大的成就,至少比我在AI研究人员中听到的最乐观的猜测提前了一年。”
然而,邱吉尔补充说,由于DeepMind尚未发布任何关于这项工作的研究论文,因此很难说它是否显示出任何技术上的飞跃。邱吉尔说:“我还没有读过这篇博客文章,也没有接触过相关的论文或技术细节。”
乔治亚理工学院(Georgia Tech)人工智能副教授马克?里德尔(Mark Riedl)表示,他对结果不那么惊讶,这场胜利只是“时间问题”。里德尔补充说,他不认为这些游戏表明星际争霸II已经被彻底打败。“在上一场直播的比赛中,把AlphaStar限制在窗口确实消除了它的一些人为优势,”里德尔说。“但我们看到的更大的问题是……”他说:“人工智能的问题在于,(人工智能学到的)政策是脆弱的,当一个人可以把它推出舒适区时,它就会崩溃。”
最终,这类工作的最终目标不是在视频游戏上打败人类,而是改进人工智能训练方法,尤其是为了创建能够在《星际争霸》等复杂虚拟环境中运行的系统。
为了训练AlphaStar, DeepMind的研究人员使用了一种被称为强化学习的方法。经纪人基本上是通过反复尝试来达到某些目标,比如赢球或者仅仅是活着。它们首先通过模仿人类玩家来学习,然后在类似竞技场的比赛中相互比赛。最强的药剂存活下来,最弱的被丢弃。DeepMind估计,它的AlphaStar代理每一个都以这种方式积累了大约200年的游戏时间,游戏速度也在加快。
DeepMind很清楚自己开展这项工作的目标。“首先,也是最重要的是,DeepMind的任务是建立一个人工通用智能系统,”AlphaStar项目的联合负责人奥里尔·维尼亚斯(Oriol Vinyals)说。“要做到这一点,重要的是对我们的代理在各种任务上的表现进行基准测试。”