首个代码世界模型引爆AI圈,能让智能体学会“真推理”,Meta开源

B站影视 韩国电影 2025-09-25 16:09 2

摘要:BigOBench 结果在时间与空间复杂度的预测和生成两类任务上,将 CWM 与 Qwen3-32B(带推理能力)、Qwen3-coder-30B 以及 Gemma-3-27B 进行了对比。在时间复杂度预测与生成的全部指标上,CWM 均超越了基线模型。在空间复

机器之心报道编辑:泽南、冷猫大模型的架构,要彻底进化了?昨晚开始,AI 圈都在研究一个神奇的新物种 ——Code World Model(CWM)。BigOBench 结果在时间与空间复杂度的预测和生成两类任务上,将 CWM 与 Qwen3-32B(带推理能力)、Qwen3-coder-30B 以及 Gemma-3-27B 进行了对比。在时间复杂度预测与生成的全部指标上,CWM 均超越了基线模型。在空间复杂度生成方面,CWM 在仅代码模式下的 pass@1 上取得最佳成绩,并在其余指标中排名第二。Meta 团队的愿景是让代码世界模型弥合语言层面的推理与可执行语义之间的鸿沟。消融实验已经表明,世界建模数据、Python 执行轨迹以及可执行的 Docker 环境,能够直接提升下游任务表现。更广泛地说,CWM 提供了一个强有力的试验平台,支持未来在零样本规划、具身的链式思维、以及稀疏且可验证奖励的强化学习等方向的研究。世界模型应当能够改进强化学习,因为那些已经熟悉环境动态的智能体,可以更专注于学习哪些动作能够带来奖励。尽管如此,要在预训练阶段跨任务地持续发挥世界模型的优势,仍需要进一步研究。最终,能够推理自身动作后果的模型,将在与环境的交互中更为高效,并有望扩展其能够处理的任务复杂度。更多细节,请参阅原论文。© THE END转载请联系本公众号获得授权投稿或寻求报道:liyazhou@jiqizhixin.com

来源:甜甜圈科技

相关推荐