阿里云通义开源全新数学推理过程奖励模型Qwen2.5-Math-PRM

B站影视 2025-01-17 14:06 2

摘要:通义千问Qwen宣布开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,包括72B和7B两个版本,将提升大型语言模型(LLMs)在数学推理过程中的可靠性和可信度,自动识别推理过程中的错误,如计算或逻辑错误,这些错误可能导致不正确的结论,即使最终答案

多知1月17日消息,通义千问Qwen宣布开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,包括72B和7B两个版本,将提升大型语言模型(LLMs)在数学推理过程中的可靠性和可信度,自动识别推理过程中的错误,如计算或逻辑错误,这些错误可能导致不正确的结论,即使最终答案正确,也可能削弱模型推理过程的可信度。

在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时,团队还开源了首个步骤级的评估标准 ProcessBench,此项评估标准填补了大模型推理过程错误评估的空白。

据了解,为更好衡量模型识别数学推理中错误步骤的能力,通义团队提出的全新评估标准ProcessBench。该基准由3400个数学问题测试案例组成,其中还包含奥赛难度的题目,每个案例都有人类专家标注的逐步推理过程,可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。

《教育科技这一年·2022》+《培训行业这一年·2021》+《教育科技行业图谱2022-2023》,重磅发售!

来源:多知

相关推荐