游戏 AI 新突破:腾讯 TiG 框架赋能大模型,高精准度玩转 <王者荣耀>

B站影视 日本电影 2025-09-03 23:34 2

摘要:在人工智能的广袤领域中,大语言模型(LLMs)与强化学习(RL)技术的融合一直是研究热点。传统强化学习智能体虽能在环境交互中获取程序性知识,但决策过程难以解释,且需海量训练数据;大语言模型虽拥有丰富知识与推理能力,却在动态环境决策上捉襟见肘。但腾讯携其创新的

在人工智能的广袤领域中,大语言模型(LLMs)与强化学习(RL)技术的融合一直是研究热点。传统强化学习智能体虽能在环境交互中获取程序性知识,但决策过程难以解释,且需海量训练数据;大语言模型虽拥有丰富知识与推理能力,却在动态环境决策上捉襟见肘。但腾讯携其创新的 Think-In-Games(TiG)框架,它让大语言模型成功进军《王者荣耀》这一复杂游戏世界,展现出卓越的决策能力与战略思维。

TiG 框架的核心,是将传统强化学习的决策流程巧妙转化为语言建模任务。在这个框架下,大语言模型不再仅仅输出简单动作指令,而是生成一段引导策略,该策略会依据游戏环境的实时反馈,通过在线强化学习进行迭代优化。

为使大语言模型能够 “读懂” 游戏,TiG 框架对游戏环境进行了严谨的形式化定义。游戏状态被表示为离散时间步下的 JSON 对象,涵盖从玩家视角可见的战略决策关键信息,如队友属性、防御塔状态和地图视野数据等,巧妙避开不可见的敌方信息,保持游戏的真实感与挑战性。同时,TiG 定义了包含 40 个预定义团队目标的有限宏观动作集合,引导模型专注于战略层面推理,如 “推进上路兵线”“夺取巨龙”“防守基地” 等,将复杂的游戏操作抽象为宏观战略选择。

在执行任务时,大语言模型会依据特定提示模板,将当前游戏状态映射为宏观动作及相应推理链。例如,在一场游戏中,阿古朵与队友姜子牙在中路面对敌方血量较低的一塔,模型会全面评估局势,判断对局阶段,分析推塔目标的可行性,制定联合推塔策略,提示敌方埋伏风险,并依据英雄特性,建议阿古朵保持安全距离输出,与姜子牙控制效果协同,最终输出明确指令。这种方式让模型在游戏中扮演起 “智慧军师” 角色,从宏观视角把控战局。

为让大语言模型在《王者荣耀》中发挥极致性能,TiG 采用多阶段训练法,有机融合监督微调(SFT)与强化学习(RL)。

SFT 阶段,团队从实力强劲的 Deepseek-R1 中精心提取训练数据,助力较小参数规模模型获取深度推理能力。这些数据蕴含着丰富战略思维与决策逻辑,为模型后续学习筑牢根基。进入在线 RL 阶段,模型投身真实游戏数据 “战场”,借助 Group Relative Policy Optimization(GRPO)算法,在最大化生成内容优势的同时,严格限制自身策略与参考模型的偏差,确保学习方向正确。在奖励机制上,TiG 采用简洁实用的二元规则奖励,预测操作与人类玩法匹配得 1 分,反之得 0 分,维持模型更新稳定性,降低训练成本,促使模型在实战中积累经验,学习实用知识与战略规划,同时保持良好通用语言能力。

以 14B 参数的 Qwen-3-14B 模型为例,经 SFT 和 GRPO 训练(2000 步)后,其在《王者荣耀》中的动作精准度飙升至 90.91%,成功超越参数量高达 671B 的 Deepseek-R1(86.67%)。这一成果有力证明,在合适训练框架与方法加持下,较小参数规模模型能在特定任务中 “以小博大”,超越大参数模型,为降低 AI 训练的数据量与计算需求开辟了新路径。

来源:爱体育创未来人生

相关推荐