正在阅读:人类一败涂地?还没有,但AI已变得更强人类一败涂地?还没有,但AI已变得更强

2019-02-01 09:08 出处:PConline原创 作者:张垞 责任编辑:zhangcha1

  1月25日,沉寂多时的DeepMind再次向人类发难,在更讲究实时性和策略性的星际争霸2中挑战人类职业选手。

  在现场表演赛中,DeepMind研发的AlphaStar对阵人类职业选手MaNa。而人类选手则一雪前耻的战胜了AlphaStar。

  之所以说“一雪前耻”,因为在2018年12月19日进行的AlphaStar与MaNa的对决中,AlphaStar曾以5:0的战绩完胜了MaNa。而在此之前一周的12月10日,AlphaStar也已5:0的成绩战胜了另一位星际大神TLO。

  比赛基本信息

  三次对决所使用的地图都是Catalyst LE,这是一张在2017年正式加入天梯对战地图池中的1V1地图。而MaNa和TLO则是Team Liquid星际分部的职业星际2选手,主力种族分别是神族和虫族,世界排名分别是第13和第68。

  另外,三次对决所使用的版本均为4.6.2。由于参战选手中包括了AI,所以这一版本也经过了专门的修改,并对AlphaStar开放了一些数据接口,方便AI进行操作和控制。当然,这些修改都是在保证公平的前提下进行的。

  三次对决共包含11场比赛,其中前10场AI均可获得全图视觉(并非取消战争迷雾)。也就是说AlphaStar可以在整张地图上进行操作,而无需像人类选手一样在前线与基地之间切换视角。在这10场比赛中,AlphaStar均获得了胜利。

  在1月25日进行的AlphaStar vs MaNa比赛中,AI也必须像人类选手一样进行视角切换。结果AlphaStar输掉了比赛。

  星际2的难点

  在AlphaGo之后,DeepMind利用AlphaGo的算法和思路又开发了包括将棋、国际象棋在内的数个其他棋类游戏的AI产品。但与DeepMind的其他棋类产品相比,星际2的比赛显然更具挑战性。这源于以下几个方面:

  1、与棋类游戏相比,星际2游戏设定的最大特色在于“战争迷雾”。这让对战的双方都无法获得全部的战场信息,必须根据自身部队的视野范围来推测对手的策略和行动。这给对战双方都增添了难度。

  2、作为一款策略类游戏,星际2的有两个关注重点——生产和战斗。不同的生产和科技策略决定了战斗所使用的策略,而想要在游戏中获得胜利,唯一的方法就是通过战斗。这就意味着任何在生产上所作出的抉择,其反馈都需要通过战斗来获得,这中间必然会产生或长或短的时差。这种反馈的非即时性会让策略的选择更加困难。

  3、在规则完全固定和透明的情况下,围棋的子力通常是固定的。但在星际2中,不同的兵种与建筑物都有不同的价值和战力,并且各种单位之间有着明显的克制关系。这种设定会让战斗更具变数,同时也让生产过程变得更为重要。

  4、在围棋对决中,棋盘空间只有361个交叉点,利用蒙特卡洛书搜索、策略网络及价值网络,AlphaGo可以用相对较小的计算量来获得对棋局未来走向的宏观把握。但相对于19×19的围棋棋盘,即便是1VS1的单人地图,星际2仍旧有着更广的战略空间。同时,由于地形要素的加入(有些地形陆战单位无法穿越,高打低会获得攻击加成)对战时的可选策略也更加丰富;而这也对AI程序的硬件算力提出了更高的要求。

  另一方面,不同于棋类游戏的回合制,星际2的战斗是完全实时的,这就意味着留给AlphaStar的反应时间会非常短,AI必须具备更强大的算力和更优秀的算法才能跟上人类选手的操作与意识。

  因此,为了能够在星际2比赛中战胜人类职业玩家,AlphaStar需要全新的算法和进化策略。

  DeepMind的AlphaStar Leagu

  首先,DeepMind需要建立一个拥有人类操作和策略特点的算法作为进化的蓝本。为此,DeepMind收集了暴雪公开发布的海量人类玩家天梯对战录像,并利用深度神经网络构建了多个不同策略倾向的基础AI。这些AI在与星际2内置的精英电脑的对局中拥有总体95%的胜率。虽然已经是不错的AI算法了,但与人类职业玩家相比,这些AI仍然是个渣渣。

DeepMind

AlphaStar League的内部对战机制

  而AlphaStar的创新之处则在于,DeepMind并没有试图从这些AI中选择某一个“最优策略”来培养,而是将这些AI集合成为一个联盟(AlphaStar League),并通过一个激励机制来进行内部对战,并强化联盟内所有成员的整体实力。

  而在与TLO和MaNa的对战方面,DeepMind的整体策略则可以概括为制造一个更好的TLO和MaNa,然后再用这些进化之后的TLO和MaNa战胜他们的人类本体。

  为了达成这一目标,DeepMind搜集了两位职业选手的所有公开对战录像,并用同样的手段制造一个拥有他们战术和策略的AI副本——TLO Agent和MaNa Agent。

  之后,DeepMind将两个Agent投入到League中,再进行内部强化训练。在短短一周的时间,整个League内部的对战时常超过了200年。

  由于星际2中存在强烈的战略及兵种克制概念,因此,如果选择通用型AI来与某位特定的职业玩家对战,难免会出现翻车情况。只有选择与对手策略倾向完全相同的AI才能尽可能的发挥自身在微操和战术上的优势。这正是DeepMind创造TLO Agent和MaNa Agent背后的原因。

DeepMind

经过两周League训练后,Agent在兵种建造方面的纳什均衡(这也就解释了为何在对战中我们通常只能看到rush战术和低阶兵种)

  最终,比赛结果证明了DeepMind战略的正确性,两位职业玩家最终也没能战胜那个活在电脑里的、强大的、异化的自己。

  对战的过程

DeepMind

AI比赛决策示意

  首先,为了尽量保证公平,DeepMind对AlphaStarDeep的APM(Action per minute)进行了限制。在三场对决中,AlphaStar的APM最高值为277,这一数值低于大部分的星际2职业玩家。但另一方面,AlphaStar的EPM(Effective action per minute)与APM值完全一样,也就是说AlphaStar的每一次操作均为有效操作。而人类选手MaNa的APM为390,平均EPM在80-100之间,战斗中EPM峰值可超过200。

DeepMind

选手们的APM及操作延迟

  凭借更高的平均EPM,AlphaStar在对战中表现出了更好的微操水平。在很多场面中可以凭借精确的操作来挽救兵种对战中的劣势。其中,AlphaStar对追猎者和裂光球的应用可以用完美来形容。但更高的EPM在对决中并没有起到绝对主导作用,人类选手仍能够通过战略和战术取得短时间的优势。(关于EPM值在对战中的价值可以参考数年前出现的automaton 2000型AI,每个单位独立控制,APM可达到12000,完全无法战胜)

  由于与职业玩家对战的AI蓝本源自于他们自己,因此两个AI并没有在战略层面上表现出更高的水平。由于1V1地图的特点,AI和职业玩家也都选择了rush战术,大多数战斗都发生在低阶兵种之间。因此,AI在后期对战中的实力目前仍不得而知。

  在12月5日进行的MaNa VS AlphaStar的表演赛中,由于取消的AI的全局视角,而且MaNa采用了与之前不同的多线骚扰战术,人类终于在最后挽回了自身的些许颜面。但这一胜利很难说是新规则中AI的算法出现了问题还是MaNa的新战术起到了决定性的作用。

  Just another game?

 

DeepMind

  围棋领域的AlphaGo和国际象棋领域的AlphaZero都是基于遍历的算法进化,但AlphaStar则更接近与对人类策略的模拟和强化。而AlphaStar League方法的发明则让业界有了一个强化智能集群并生产最强策略的有效工具。

  通过这种方法,AI开发团队可以更有效的开发策略型AI,而不是传统的判断型AI。另一方面,我们虽然已经看到了走出弱人工智能的曙光,但在目前的技术环境下,AI仍无法获得创造力。即便是经过“百年对战强化”的最强星际AI在面对职业玩家的创新时仍无法有效应对。这代表AI的应用仍将是有限的,换句话说,人类仍旧是十分安全的。

 
情人节怎么过?余生虽长却不曾遗忘任何美好 3D打印的心脏了解一下?可治疗儿童出生缺陷 刚普及就被山寨了? 一招辨别真假Mesh路由 网联汽车是未来的趋势?安全问题却仍然堪忧 赌场也有这样的打印解决方案?将在伦敦ICE展示

为您推荐

加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
最新资讯离线随时看 聊天吐槽赢奖品