腾讯AI Lab与王者荣耀联合研发的策略协作型 AI「绝悟」,全英雄池解禁,升级成「完全体」了。
11月28日到30日,将限时开放三天公众体验。
这次的升级,带来了新算法,除了突破了可用英雄限制,还优化了禁选英雄博弈策略。
而与此次升级相关的研究,也在近期被NeurIPS 2020和TNNLS分别收录。
在这两篇研究中,分别介绍了「绝悟」进行强化训练和监督训练具体细节。
那么,「完全体绝悟」是如何训练出来的呢?
就让我们顺着这次的论文,好好来了解一下。
新的MOBA AI强化学习范式
这次更新带来的最大亮点便是:全英雄池更新。但是AI来说,英雄数增多,意味着的是阵容组合数量将呈多项式增长。
这对于使用自对弈强化学习进行训练的AI来说,不甚友好,也是必须面对的问题。
在NeurIPS 2020中,腾讯实验室提出了一种基于深度强化学习的学习范式,来尝试解决这个问题。
首先,基于Actor-Learner框架,建立一个分布式的RL架构,并使用离策略(off-policy)的方式产生训练数据。
之后在进行强化学习中,采用了统一的Actor-Critic网络结构来诠释不同英雄的游戏机制以及动作。
另外,研究者还受到神经网络工作中课程学习的启发,在训练设计了一套课程学习方法:先从小任务开始学,然后逐渐增加难度。
具体来讲,就是先用固定阵容来训练多个teacher模型,然后进行蒸馏,把所有teacher的知识蒸馏到一个模型中。
利用了student-driven的策略蒸馏方法,便可以将从简单任务中学习到的知识转移到复杂的任务中。
此外,对于完整的游戏来说,禁选英雄(BanPick,BP)也是其中重要的一环。
常见的BP方法有Minimax算法,不过受限于计算难度,只适用于小英雄池。因此,随着可用英雄数量的增加,便会带来新的问题。
而腾讯实验室给出的方案是:基于蒙特卡洛树搜索(MCTS)和神经网络进行BP的方法。
在最后的测试中,这个AI展现出了惊人的胜率:
在对抗职业选手中,实现了95.2%的胜率(42局);而对抗高水平的玩家中,则实现了97.7%的胜率(642,047局)。
监督学习,让AI达到人类高手水平
另外,便是监督学习了。在今年11月14日起开放的「绝悟」第1到19级,就有多个关卡由监督学习训练而成。
而TNNLS中的论文,便详细介绍了「绝悟」智能体,是如何进行监督学习的。
监督学习成功的关键之一,便是设计好特征和标签,对于MOBA游戏,腾讯实验室是这么设计的:
特征中,包括两部分:矢量特征,代表游戏状态;图像特征,代表地图信息。
标签设计也分两部分:意图标签,代表大局观;行动标签,表征微操策略。
大局观对应的多视角意图
研究人员设计了多视角意图标签,包括全局意图和局部意图标签,以对大局观进行建模。
整个地图被划分成24*24的区域块,然后全局意图标签被定义为地图上发生下一系列攻击的编号区域。
局部小地图被划分为12*12的区域块,局部意图标签是从两次攻击事件之间玩家的中途位置提取的,为学习大局观提供了中间信息。
微操策略的层级动作设计
研究人员设计了分层的动作标签,用以控制英雄的微操策略。
这其中包括两层。第一层代表动作类型,比如移动、技能、回城等。第二层代表选定动作的参数,比如方向、位置、目标等。
多模态特征
同时使用了矢量特征和类图像特征,它们分别表征的是游戏状态和地图信息。
其中矢量特征包括血量,技能冷却,金币,等级等及时序信息等。
类图像特征包括局部类图像特征和全局类图像特征。
局部类图像特征的范围是英雄的局部小地图,全局类图像特征的范围是全局地图。
在设计好特征和标签的基础上,AI建模任务便被定义成了一个层级的多分类问题,之后通过神经网络模型来解决。
模型简单来看就是:全局和局部图像特征经过卷积神经网络处理,矢量特征通过全连接网络处理,两者连接到一起去预测全局和局部的宏观意图。
之后进一步的,嵌入大局观的预测结果,和原有的隐层编码连接在一起,经过输出层输出微操策略对应的标签。
此外,在大局观和微操策略间,使用了加权的多任务损失函数进行学习。
而在本研究中的最后测试中,结果也表明:在监督学习后,该AI系统在5V5模式中,能达到人类顶尖业余高手水平。
关于「绝悟」
「绝悟」,是由腾讯AI Lab与王者荣耀联合研发的策略协作型 AI。名字寓意绝佳领悟力。
其技术研发始于2017年12月,并在2018年12月通过了顶尖业余水平测试。
从去年开始,「绝悟」开始被训练使用英雄,今年1月AI可以职业水平的英雄达到20名,而4月达到了40名。
技术团队一年内让 AI 掌握的英雄数从1个增加到100+个,完全解禁英雄池。因此,此版本得名「绝悟完全体」。
不说了,我要打开王者荣耀去会会这个「完全体」了。