AI 基准测试曝出丑闻:大厂模型都在做手脚 ?

B站影视 2025-01-14 21:58 3

摘要:所涉及的模型和基准测试常常与“通用人工智能”(AGI)和所谓的“排行榜”有关,这类排行榜据称可以衡量各大模型在向人类级认知方面取得的进展。

到底是有意为之?还是大规模数据抓取的附带结果?

来自阿里巴巴、谷歌、Meta、微软、Mistral AI 和 OpenAI 的最先进 AI 模型最近因涉嫌在 AI 基准测试中集体“作弊”而受到密切关注。

举报人和分析师给出的证据表明,可以设计特定的 AI 模型,以输出至少两种流行基准测试:MMLU 和 GSM8K 的测试集。

他们表示,这至少表明数据受到污染,并对每个模型的基准测试分数的准确性提出了质疑。这甚至可能表明企业 AI 领域存在普遍的作弊行为。

通用人工智能

所涉及的模型和基准测试常常与“通用人工智能”(AGI)和所谓的“排行榜”有关,这类排行榜据称可以衡量各大模型在向人类级认知方面取得的进展。

机器学习和 AI 领域的大多数工作与开发 AGI 无关。

然而,夸大其辞的主流媒体和前所未有的投资热潮使得 AGI(尤其是在生成式 AI 领域)成为全球科技行业增长最迅猛的领域之一。

这种增长是否可持续仍是个悬而未决的问题。

截至 2025 年初,AGI 仍然是一个纯粹理论上的概念。这使得对其进行基准测试成为一项艰巨的任务。

IBM 称 AGI 是“机器学习发展的一个假设性阶段;在这个阶段,AI 系统可以在处理任何任务上媲美或超过人类的认知能力。”但对于如何识别、定义或开发 AGI,科学家们尚未达成共识。

正如 IBM 研究院的首席科学家 Ruchir Puri 在接受《The Stack》采访时所说:“目前 AGI 还没有一个定义;没有定义,基准测试也就无从谈起。”

然而,至少有十几位从事 AGI 研发工作的人公开声称,他们已在当前的模型中看到了 AGI 的证据,或者目前的进展证实了 AGI 即将到来。

比如说,OpenAI 的首席执行官 Sam Altman 在 1 月 5日的一篇博文中宣称:“我们现在有信心知道如何构建 AGI。”

AGI 基准测试

现有的 AI 基准测试旨在测试模型处理一项特定任务或一组特定任务的能力。

所谓的“AGI 排行榜”往往将几个狭窄的测试分组(比如 MMLU 和 GSM8K)拼凑在一起,以便对模型在多个领域的能力进行评分。

某个模型在基准测试中的总得分旨在表明其潜在能力以及实现人类级认知方面取得的进展。

然而据 Puri 声称,模型的基准测试性能不一定反映它在实际环境中的性能。他解释道:“好的基准测试反映现实,但从来不是现实。”

他补充道,没有“所有基准测试的母测试”或测试组合能够确定某个模型是否有望成为 AGI。

《The Stack》还采访了专门研究认知神经符号架构的 SynaLinks 公司的联合创始人兼首席执行官 Yoan Sallami。他完全否定了对智能进行基准测试的想法:“我可以肯定地告诉你,绝对不存在所谓的智能测试。”

被问及一个模型在多项基准测试中的表现是否表明它在 AGI方面取得的进展时,Sallam表示:“即使你把所有这些狭窄的任务合并到一项测试中,由于数据污染,它仍然测试不了智能。”

数据污染

就基准测试而言,AI 模型通常使用“训练集”加以训练,然后用“测试集”加以评估。如果 AI 模型的数据库含有来自基准测试集的数据,模型就被“污染”了。含有测试集数据的模型比不含有测试集数据的模型有天生的优势,就像提前拿到试卷的学生比同学更有优势一样。

2025 年 1 月 3 日,LiquidAI 前首席财务官 Louis Hunt 发布了一些文件,证明某些 AI 模型可以生成 MMLU 和 GSM8K 基准测试的测试集。列出来的模型包括阿里巴巴的 Qwen 2.5 14B、谷歌的 Gemma 2、Meta 的 Llama 370B、微软的 Phi 3 Medium 128K Instruct 和 Mistral AI的Mistral 7B Instruct。

Llama 370B 生成的 MMLU 测试集数据截图:

由于前面提到的模型是开源模型,Hunt 提供的数据含有重现测试集所需的代码。

被问及 AI 模型如何被基准测试集污染时,Sallami 告诉《The Stack》,这不太可能是偶然发生的。他补充道“他们(模型开发者)不可能不知道。”他还表达了这一观点:生成式AI 模型中的数据污染既是普遍的,又是有意的,这源于大厂们希望在公共排行榜上获得高分。

Puri 在回答同一个问题时指出,网上已发布了众多的测试集。据他声称,模型获得泄露的基准测试集、作为更庞大数据集的一部分可能成了习以为常的事。

在 OpenAI 的 GPT 4 等闭源模型中,数据污染很难被发现,但据一些分析师声称,这类闭源模型同样存在数据污染的证据。

伯克利 EECS 的研究学者 Alejandro Cuadron 最近分享了其研究团队在 GPT-4 o1 中发现的一个明显的内部基准异常。

据 Caudron 声称,在其团队的独立测试中,该模型在 OpenAI 自己的 SWE-Bench Verified 基准测试中只达到了 30%,远低于该公司声称的近 50% 的得分。

Cuadron 在 X.com 上的一个帖子中解释了其研究工作;据他声称,该模型在没有使用名为“Agentless”的特定测试框架进行基准测试时表现不佳。

他写道,据称 OpenAI 之所以选择这个框架,是由于该公司声称其性能优于其他框架。然而 Cuadron 表示,他和同事使用的框架(All Hands AI)在公开的 SWE-bench 排行榜上名列前茅。他写道:“既然如此,为什么选择Agentless?”

随后在同一个帖子中,Cuadron 用另一个问题回答了他心中的疑问:“是不是 Agentless 的固定方法更偏向记住 SWE-Bench 仓库的模型?”他接着承认,其团队没有搞清这种差异发生的具体原因,但在竭力找出原因。

造成的影响

目前尚不清楚 Hunt 的帖子中披露的所谓数据污染或 Cuadron 的帖子中发现的异常是有意为之,还是与大规模数据抓取和使用大量数据来训练模型有关。

这个问题可能无关紧要。无论开发者耍手脚还是无意中污染模型,如果结果证明最受欢迎的基准测试排行榜有猫腻,全世界都可能受到影响。

虽然对于 AGI 可能没有科学的定义或测试,但现有的基准测试显然已被利益相关者和最高层面的政策制定者解释为是衡量人类级认知方面取得的进展的指标。

斯坦福大学以人为中心的人工智能(HAI)中心在 2024 年 12 月的一份报告讨论了 AI 基准测试过程中的不一致性,得出了结论“政策制定者及其他利益相关者常常依赖相互矛盾甚至误导性的评估。”

比如说,英国的 AI 安全研究所特别提到它使用前面提到的 MMLU 等基准测试来衡量模型的性能,欧盟的《AI安全法》也是这么做的。

对 AGI 基准测试采取这种“假装久了就变成真的”的做法带来了恶果,几乎肯定在很大程度上取决于理论技术是否真的实现了——到目前为止,似乎还远远无法保证取得这一壮举。

参考资料:https://www.thestack.technology/ai-benchmarking-scandal-were-top-models-caught-gaming-the-system/

来源:人工智能学家

相关推荐