大语言模型数学能力测试:数字越大,错误率越高?

B站影视 内地电影 2025-04-04 01:27 1

摘要:最新研究发现,大语言模型(LLM)在数学推理中存在一个有趣现象:当题目中的数字变大时,不仅算术错误会增加,逻辑错误的概率也会显著上升——最高可达14个百分点!研究人员开发了GSM-Ranges测试工具,通过系统性地改变数学题中的数字大小,揭示了LLMs在数学推

Google Scholar Citation: 2 (Date: 2025/04/02)

(太长不看版)最新研究发现,大语言模型(LLM)在数学推理中存在一个有趣现象:当题目中的数字变大时,不仅算术错误会增加,逻辑错误的概率也会显著上升——最高可达14个百分点!研究人员开发了GSM-Ranges测试工具,通过系统性地改变数学题中的数字大小,揭示了LLMs在数学推理中的这一弱点。更令人意外的是,虽然LLMs能很好地完成单独的算术题,但当同样的计算嵌入文字题中时,准确率会大幅下降。

1. 问题背景:现有测试的局限性

当前评估大语言模型数学能力的基准测试(如GSM8K、SVAMP等)存在两个主要问题:

数字范围有限:分析显示,这些数据集中94%以上的数字都小于1000,无法反映真实世界中各种规模的数学问题。
评估方式粗糙:传统方法只比较模型输出与标准答案,无法区分是"逻辑错误"(推理过程出错)还是"非逻辑错误"(如计算错误或数字抄写错误)。

2. 创新解决方案:GSM-Ranges与新型评分方法

为解决这些问题,研究团队开发了两大工具:

2.1 GSM-Ranges数据集生成器

基于GSM8K数据集,研究人员设计了6个级别的数字扰动:

级别1:保持数字位数不变(如将"5"替换为"7")级别2-6:数字范围逐步扩大,最高达到100万到1000万

2.2 智能评分系统

创新性地使用GPT-4o将模型的解题过程转换为Python代码执行,从而:

如果修正计算错误后答案正确 → 判定为"非逻辑错误"如果修正后仍不正确 → 判定为"逻辑错误"

这种方法实现了98.5%的评分准确率,远超传统评估方式。

3. 惊人发现:数字越大,错误越多

测试了包括GPT-4o、Mistral等9个主流模型后,研究人员发现了几个关键现象:

3.1 逻辑错误随数字增大而增加

尽管题目逻辑完全相同,只是数字变大:

Gemma-2 2B模型的逻辑错误率增加了14%WizardMath 7B增加了10%即使是较强的GPT-3.5 Turbo也增加了约4%唯一例外是GPT-4o,几乎保持稳定

3.2 "会做算术≠会解应用题"

另一个重要发现:

模型在单独算术题(如"36×6=?")上表现良好但当相同计算嵌入文字题(如"Jack有36个苹果...")时,准确率显著下降

这表明LLMs可能更多依赖记忆而非真正的数学理解。

4. 深入分析:为什么大数字会难倒AI?

4.1 训练数据偏差

现有数学训练数据中,大数字出现频率极低,导致模型"没见过世面"。

4.2 注意力机制局限

处理大数字时,模型可能需要同时关注更多位数,增加了认知负荷。

4.3 多步推理挑战

大数字运算往往需要更多中间步骤,放大了任何一个小错误的后果。

5. 未来方向:如何提升AI数学能力?

基于这些发现,研究人员建议:

在训练数据中增加大数字样本开发专门处理数值的模块探索"思维链"技术的改进结合外部计算工具减少算术错误

这项研究不仅揭示了LLMs在数学推理中的局限,更为提升AI的STEM能力指明了方向。随着技术的进步,或许不久的将来,AI就能像人类一样游刃有余地处理各种规模的数学问题了。

@article{Shrestha2025MathematicalMRI, title={Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges}, author={Safal Shrestha and Minwu Kim and Keith Ross}, year={2025}, url={https://www.semanticscholar.org/paper/00e4098e8cba9fb2342109ba3028294c8b687c03}, journal={arXiv.org},}

来源:鼠meme

相关推荐