返回游久网

王者荣耀

下载APP

绝悟完全体上线：解禁全英雄在线约你来战

时间：11/29 来源：王者荣耀作者：19

　　腾讯AI Lab与王者荣耀联合研发的策略协作型 AI「绝悟」，全英雄池解禁，升级成「完全体」了。

　　11月28日到30日，将限时开放三天公众体验。

　　这次的升级，带来了新算法，除了突破了可用英雄限制，还优化了禁选英雄博弈策略。

　　而与此次升级相关的研究，也在近期被NeurIPS 2020和TNNLS分别收录。

　　在这两篇研究中，分别介绍了「绝悟」进行强化训练和监督训练具体细节。

　　那么，「完全体绝悟」是如何训练出来的呢?

　　就让我们顺着这次的论文，好好来了解一下。

　　新的MOBA AI强化学习范式

　　这次更新带来的最大亮点便是：全英雄池更新。但是AI来说，英雄数增多，意味着的是阵容组合数量将呈多项式增长。

　　这对于使用自对弈强化学习进行训练的AI来说，不甚友好，也是必须面对的问题。

　　在NeurIPS 2020中，腾讯实验室提出了一种基于深度强化学习的学习范式，来尝试解决这个问题。

　　首先，基于Actor-Learner框架，建立一个分布式的RL架构，并使用离策略(off-policy)的方式产生训练数据。

　　之后在进行强化学习中，采用了统一的Actor-Critic网络结构来诠释不同英雄的游戏机制以及动作。

　　另外，研究者还受到神经网络工作中课程学习的启发，在训练设计了一套课程学习方法：先从小任务开始学，然后逐渐增加难度。

　　具体来讲，就是先用固定阵容来训练多个teacher模型，然后进行蒸馏，把所有teacher的知识蒸馏到一个模型中。

　　利用了student-driven的策略蒸馏方法，便可以将从简单任务中学习到的知识转移到复杂的任务中。

　　此外，对于完整的游戏来说，禁选英雄(BanPick，BP)也是其中重要的一环。

　　常见的BP方法有Minimax算法，不过受限于计算难度，只适用于小英雄池。因此，随着可用英雄数量的增加，便会带来新的问题。

　　而腾讯实验室给出的方案是：基于蒙特卡洛树搜索(MCTS)和神经网络进行BP的方法。

　　在最后的测试中，这个AI展现出了惊人的胜率：

　　在对抗职业选手中，实现了95.2%的胜率(42局);而对抗高水平的玩家中，则实现了97.7%的胜率(642,047局)。

　　监督学习，让AI达到人类高手水平

　　另外，便是监督学习了。在今年11月14日起开放的「绝悟」第1到19级，就有多个关卡由监督学习训练而成。

　　而TNNLS中的论文，便详细介绍了「绝悟」智能体，是如何进行监督学习的。

　　监督学习成功的关键之一，便是设计好特征和标签，对于MOBA游戏，腾讯实验室是这么设计的：

　　特征中，包括两部分：矢量特征，代表游戏状态;图像特征，代表地图信息。

　　标签设计也分两部分：意图标签，代表大局观;行动标签，表征微操策略。

　　大局观对应的多视角意图

　　研究人员设计了多视角意图标签，包括全局意图和局部意图标签，以对大局观进行建模。

　　整个地图被划分成24*24的区域块，然后全局意图标签被定义为地图上发生下一系列攻击的编号区域。

　　局部小地图被划分为12*12的区域块，局部意图标签是从两次攻击事件之间玩家的中途位置提取的，为学习大局观提供了中间信息。

　　微操策略的层级动作设计

　　研究人员设计了分层的动作标签，用以控制英雄的微操策略。

　　这其中包括两层。第一层代表动作类型，比如移动、技能、回城等。第二层代表选定动作的参数，比如方向、位置、目标等。

　　多模态特征

　　同时使用了矢量特征和类图像特征，它们分别表征的是游戏状态和地图信息。

　　其中矢量特征包括血量，技能冷却，金币，等级等及时序信息等。

　　类图像特征包括局部类图像特征和全局类图像特征。

　　局部类图像特征的范围是英雄的局部小地图，全局类图像特征的范围是全局地图。

　　在设计好特征和标签的基础上，AI建模任务便被定义成了一个层级的多分类问题，之后通过神经网络模型来解决。

　　模型简单来看就是：全局和局部图像特征经过卷积神经网络处理，矢量特征通过全连接网络处理，两者连接到一起去预测全局和局部的宏观意图。

　　之后进一步的，嵌入大局观的预测结果，和原有的隐层编码连接在一起，经过输出层输出微操策略对应的标签。

　　此外，在大局观和微操策略间，使用了加权的多任务损失函数进行学习。

　　而在本研究中的最后测试中，结果也表明：在监督学习后，该AI系统在5V5模式中，能达到人类顶尖业余高手水平。

　　关于「绝悟」

　　「绝悟」，是由腾讯AI Lab与王者荣耀联合研发的策略协作型 AI。名字寓意绝佳领悟力。

　　其技术研发始于2017年12月，并在2018年12月通过了顶尖业余水平测试。

　　从去年开始，「绝悟」开始被训练使用英雄，今年1月AI可以职业水平的英雄达到20名，而4月达到了40名。

　　技术团队一年内让 AI 掌握的英雄数从1个增加到100+个，完全解禁英雄池。因此，此版本得名「绝悟完全体」。

　　不说了，我要打开王者荣耀去会会这个「完全体」了。

王者荣耀

绝悟完全体上线：解禁全英雄在线约你来战

最新文章

绝悟完全体上线：解禁全英雄在线约你来战...

绝悟挑战18-20关攻略详解速推流和断线流二选一...

澜新皮肤抢先看！觉悟18～20关教学10分钟通关...

官方给的游戏建议玩家经常听到但做到的却很少...

绝悟AI最终关卡限时体验，揭秘AI完全体秘技！...

绝悟AI最终关卡限时体验，揭秘AI完全体秘技！...

estar输给QG后，猫神的巅峰赛却意外的胜率火了！想不明白...

梦泪巅峰赛一直选用关羽，知道原因后，太励志了！...

【简讯】RNG.M遗憾止步季后赛败者组第二轮，广州TTG晋级败者组第三轮...

神之一手，锁定乾坤——成都AG力克WB.TS，会师DYG...

王者荣耀

绝悟完全体上线：解禁全英雄在线约你来战

最新文章

绝悟完全体上线：解禁全英雄在线约你来战...

绝悟挑战18-20关攻略详解 速推流和断线流二选一...

澜新皮肤抢先看！觉悟18～20关教学10分钟通关...

官方给的游戏建议 玩家经常听到但做到的却很少...

绝悟AI最终关卡限时体验，揭秘AI完全体秘技！...

绝悟AI最终关卡限时体验，揭秘AI完全体秘技！...

estar输给QG后，猫神的巅峰赛却意外的胜率火了！想不明白...

梦泪巅峰赛一直选用关羽，知道原因后，太励志了！...

【简讯】RNG.M遗憾止步季后赛败者组第二轮，广州TTG晋级败者组第三轮...

神之一手，锁定乾坤——成都AG力克WB.TS，会师DYG...

绝悟挑战18-20关攻略详解速推流和断线流二选一...

官方给的游戏建议玩家经常听到但做到的却很少...