o3ai

OpenAI 的 o3 AI 模型在基准测试中的表现低于宣传描述

OpenAI 的 o3 AI 模型的第一方和第三方基准测试结果之间的差异引发了人们对该公司透明度和模型测试实践的质疑。OpenAI于 12 月发布 o3时，声称该模型能够解答 FrontierMath（一组颇具挑战性的数学问题）中略高于四分之一的题目。这一成绩