AI程序的升级打怪之路

时间:2022-09-06 21:59:41 来源:电竞网

英国人工智能公司DeepMind在最新一期《科学机器人》杂志上发表了一项最新研究成果,一个人工智能足球运动员。要知道,著名的AlphaGo围棋程序就是DeepMind开发的。这个AI足球运动员是一个比AlphaGo更高级更复杂的AI程序。为什么这么说?

战略上,围棋是1V1,只需要考虑两个人的博弈;而足球是多对多,不能只考虑个人技术,还要考虑所有成员之间的配合。即时性方面,围棋是回合制,一方移动,另一方只能旁观;足球是实时比赛,双方都在运动,反应慢一秒就可能错过机会。操作上,围棋只需要考虑下棋的步骤,而足球涉及很多动作,比如带球突破、身体对抗、精准射门等。这就需要一个强有力的体育战略体系,这些差异决定了AI足球运动员的算法要比AlphaGo复杂得多。

其实2016年AlphaGo诞生的时候,仅仅过了半年,腾讯的AI Lab就推出了自己的AI程序,命名为“绝艺”。他们让柯洁和绝艺对弈,绝艺在让柯洁有两个子的情况下也完全赢了,而且表现和AlphaGo一样好。不过当时AlphaGo在李世石的时候已经是名满天下了,已经稳坐头把交椅了。“绝艺”落后半拍,再厉害也只能算个“跟屁虫”,没有引起大众太多关注。

但是这次,早在DeepMind开发AI足球运动员之前,腾讯AI Lab就已经开发出了强大的多智能体,你可能和它对抗过。没错,王者荣耀游戏在2020年推出了一个新模块,叫做“挑战绝武”。这个绝武就是多智能体AI。像AI足球运动员,它在踢球的时候要考虑团队配合,因为王者荣耀的游戏规则是5V5,也就是10个角色分成两队分组作战;在操作上,也有复杂的行走和移动技巧。

为了快速提升绝武的战斗力,腾讯AI团队决定将其发布,并邀请亿万游戏玩家与它对战,帮助它进步。如果你也挑战过《绝武》,那就牛逼了。你为开发世界上最先进的多智能体人工智能做出了贡献。“绝武”用了三年时间成为世界上最先进的多智能体AI之一,从一开始一个连地图怪物都打不过的“弱鸡”,到成为王者荣耀职业联赛的冠军。

听到这里,不知道大家会不会有一个疑问:BAT三巨头中,百度对人工智能的投入是最多的,为什么这个多智能体AI是腾讯做的?原来腾讯开发“绝武”并不是心血来潮,而是为了解决一个实际问题。

王者荣耀游戏会不断推出新的英雄角色,这个新角色的战力需要和旧角色的战力保持平衡,不能太强也不能太弱,最好的胜率在50%左右。如何保证这个胜率?

一般的做法是在新角色发布前找很多专业的游戏测试人员,和老角色组队玩上千款游戏,尝试测试各种技能和场景。但这种方式人力成本高,效率低,还有新角色提前泄露给大众的风险。能不能简单的设置一个AI系统,可以控制各种角色自动测试?没错,这就是“绝无”的由来。

从数学上来说,如果想求出胜率,就需要用穷举法,即推导出每一步所有可能的变量,自然就能得到结果。然而,这种方法只在理论上可行。现实中,它需要的计算能力是天文数字,超过了计算机的极限。即使是简单的围棋程序也不能采用穷举法,更不用说更复杂的多智能体了。

其实绝武1.0版和AlphaGo一样,采用的是“模仿学习”的方法。AlphaGo研究的是人类的棋谱,而“绝武”研究的是王者荣耀职业联赛的视频。然而,简单地将这些视频信息填入系统是不够准确的。因为高手也有晕招的情况,“绝武”前期分不清哪些是高招,哪些是晕招。腾讯团队找了一批游戏高手,人工标注哪些华而不实,哪些真的匠心独运,把“提纯”后的武功秘籍输入绝武。

通过“模仿学习”,绝武的水平相当于更厉害的业余选手,可以挑战游戏主播,但比不上真正的职业选手。从“模仿学习”的原理来看,“绝悟”就是跟职业玩家的屁股学,最多能学到78%上下,就像孙悟空再厉害也赶不上菩提老祖一样。后来《绝武》是如何实现成为职业选手的目标的?

这是关于绝武2.0版本的。和AlphaGo的下一代AlphaZero一样,它不再是“模仿学习”。而是完全抛弃人类的经验,从一张白纸开始,通过和自己对打,左右手对打,总结出自己的战斗经验,这在人工智能领域被称为“强化学习”。

但是,正如我们前面提到的。多智能体AI面临的情况比围棋这样的单智能体面临的情况要复杂得多,这意味着它的模型有大量的参数,“强化学习”的结果可能越来越强,也可能是“学习无用”,模型无法收敛,性能越来越差。就像教游泳,把宝宝扔进水里,结果无人能够预知。

其实绝武2.0就遇到过这种情况:刚开始学习曲线很漂亮,后来忽上忽下,然后突然转了下来。“强化学习”不同于“模仿学习”。机器“强化学习”的过程是一个黑箱,人类无法理解,更谈不上干预和引导。

课题组苦思冥想,终于悟出:虽然没办法,但可以降低难度!他们给“绝武”做了一个由易到难的训练计划:不是一开始就让它有5V5的近战,而是从1V1开始,然后做固定的组队训练,最后打乱组队训练。

在这样一步步的训练计划下,“绝武”终于起死回生,学习曲线上去了。最终,在2019王者荣耀世界冠军杯中,绝武战胜了顶级职业棋手,成为了游戏界的AlphaGo。

更重要的是,AlphaGo是专门用于下围棋的单个智能体,实际应用场景有限;“绝无”作为多智能体的代表,有很多实际的应用场景。比如“把王者荣耀的英雄换成汽车,把地图换成街道,就成了智能驾驶问题”;再衍生开来,如果把王者荣耀的英雄变成小行星,那就可以让小行星自动组队进行天文观测。

从这个意义上来说,《王者荣耀》早已超出了一款游戏的范畴。它是一个有数亿游戏玩家参与的多智能体AI研究平台,也是一个通向未来的基础设施。

1/1页