AI程序的升级打怪之路

时间：2022-09-06 21:59:41 来源：电竞网

英国人工智能公司DeepMind在最新一期《科学机器人》杂志上发表了一项最新研究成果，一个人工智能足球运动员。要知道，著名的AlphaGo围棋程序就是DeepMind开发的。这个AI足球运动员是一个比AlphaGo更高级更复杂的AI程序。为什么这么说？

战略上，围棋是1V1，只需要考虑两个人的博弈；而足球是多对多，不能只考虑个人技术，还要考虑所有成员之间的配合。即时性方面，围棋是回合制，一方移动，另一方只能旁观；足球是实时比赛，双方都在运动，反应慢一秒就可能错过机会。操作上，围棋只需要考虑下棋的步骤，而足球涉及很多动作，比如带球突破、身体对抗、精准射门等。这就需要一个强有力的体育战略体系，这些差异决定了AI足球运动员的算法要比AlphaGo复杂得多。

其实2016年AlphaGo诞生的时候，仅仅过了半年，腾讯的AI Lab就推出了自己的AI程序，命名为“绝艺”。他们让柯洁和绝艺对弈，绝艺在让柯洁有两个子的情况下也完全赢了，而且表现和AlphaGo一样好。不过当时AlphaGo在李世石的时候已经是名满天下了，已经稳坐头把交椅了。“绝艺”落后半拍，再厉害也只能算个“跟屁虫”，没有引起大众太多关注。

但是这次，早在DeepMind开发AI足球运动员之前，腾讯AI Lab就已经开发出了强大的多智能体，你可能和它对抗过。没错，王者荣耀游戏在2020年推出了一个新模块，叫做“挑战绝武”。这个绝武就是多智能体AI。像AI足球运动员，它在踢球的时候要考虑团队配合，因为王者荣耀的游戏规则是5V5，也就是10个角色分成两队分组作战；在操作上，也有复杂的行走和移动技巧。

为了快速提升绝武的战斗力，腾讯AI团队决定将其发布，并邀请亿万游戏玩家与它对战，帮助它进步。如果你也挑战过《绝武》，那就牛逼了。你为开发世界上最先进的多智能体人工智能做出了贡献。“绝武”用了三年时间成为世界上最先进的多智能体AI之一，从一开始一个连地图怪物都打不过的“弱鸡”，到成为王者荣耀职业联赛的冠军。

听到这里，不知道大家会不会有一个疑问:BAT三巨头中，百度对人工智能的投入是最多的，为什么这个多智能体AI是腾讯做的？原来腾讯开发“绝武”并不是心血来潮，而是为了解决一个实际问题。

王者荣耀游戏会不断推出新的英雄角色，这个新角色的战力需要和旧角色的战力保持平衡，不能太强也不能太弱，最好的胜率在50%左右。如何保证这个胜率？

一般的做法是在新角色发布前找很多专业的游戏测试人员，和老角色组队玩上千款游戏，尝试测试各种技能和场景。但这种方式人力成本高，效率低，还有新角色提前泄露给大众的风险。能不能简单的设置一个AI系统，可以控制各种角色自动测试？没错，这就是“绝无”的由来。

从数学上来说，如果想求出胜率，就需要用穷举法，即推导出每一步所有可能的变量，自然就能得到结果。然而，这种方法只在理论上可行。现实中，它需要的计算能力是天文数字，超过了计算机的极限。即使是简单的围棋程序也不能采用穷举法，更不用说更复杂的多智能体了。

其实绝武1.0版和AlphaGo一样，采用的是“模仿学习”的方法。AlphaGo研究的是人类的棋谱，而“绝武”研究的是王者荣耀职业联赛的视频。然而，简单地将这些视频信息填入系统是不够准确的。因为高手也有晕招的情况，“绝武”前期分不清哪些是高招，哪些是晕招。腾讯团队找了一批游戏高手，人工标注哪些华而不实，哪些真的匠心独运，把“提纯”后的武功秘籍输入绝武。

通过“模仿学习”，绝武的水平相当于更厉害的业余选手，可以挑战游戏主播，但比不上真正的职业选手。从“模仿学习”的原理来看，“绝悟”就是跟职业玩家的屁股学，最多能学到78%上下，就像孙悟空再厉害也赶不上菩提老祖一样。后来《绝武》是如何实现成为职业选手的目标的？

这是关于绝武2.0版本的。和AlphaGo的下一代AlphaZero一样，它不再是“模仿学习”。而是完全抛弃人类的经验，从一张白纸开始，通过和自己对打，左右手对打，总结出自己的战斗经验，这在人工智能领域被称为“强化学习”。

但是，正如我们前面提到的。多智能体AI面临的情况比围棋这样的单智能体面临的情况要复杂得多，这意味着它的模型有大量的参数，“强化学习”的结果可能越来越强，也可能是“学习无用”，模型无法收敛，性能越来越差。就像教游泳，把宝宝扔进水里，结果无人能够预知。

其实绝武2.0就遇到过这种情况:刚开始学习曲线很漂亮，后来忽上忽下，然后突然转了下来。“强化学习”不同于“模仿学习”。机器“强化学习”的过程是一个黑箱，人类无法理解，更谈不上干预和引导。

课题组苦思冥想，终于悟出:虽然没办法，但可以降低难度！他们给“绝武”做了一个由易到难的训练计划:不是一开始就让它有5V5的近战，而是从1V1开始，然后做固定的组队训练，最后打乱组队训练。

在这样一步步的训练计划下，“绝武”终于起死回生，学习曲线上去了。最终，在2019王者荣耀世界冠军杯中，绝武战胜了顶级职业棋手，成为了游戏界的AlphaGo。

更重要的是，AlphaGo是专门用于下围棋的单个智能体，实际应用场景有限；“绝无”作为多智能体的代表，有很多实际的应用场景。比如“把王者荣耀的英雄换成汽车，把地图换成街道，就成了智能驾驶问题”；再衍生开来，如果把王者荣耀的英雄变成小行星，那就可以让小行星自动组队进行天文观测。

从这个意义上来说，《王者荣耀》早已超出了一款游戏的范畴。它是一个有数亿游戏玩家参与的多智能体AI研究平台，也是一个通向未来的基础设施。

1/1页