OpenAI 迎接Deepseek挑战,深夜上线 o3-mini

B站影视 2025-02-01 09:58 3

摘要:近日,OpenAI 首席执行官山姆・奥特曼的一系列动作吸引了全球人工智能领域的目光。当地时间 1 月 31 日深夜,OpenAI 正式推出推理模型 o3-mini,这一举措被视为对市场需求和行业竞争的有力回应。

近日,OpenAI 首席执行官山姆・奥特曼的一系列动作吸引了全球人工智能领域的目光。当地时间 1 月 31 日深夜,OpenAI 正式推出推理模型 o3-mini,这一举措被视为对市场需求和行业竞争的有力回应。

早在去年 12 月 21 日,OpenAI 在其连续 12 个工作日的直播发布活动收官之日,首席执行官山姆・奥特曼就已推出下一代大模型 o3。当时便宣布,o3-mini(即迷你版本)预计会在 2025 年 1 月底发布,此次上线也如期兑现了承诺。值得一提的是,o3-mini 的训练者是北大计算机系毕业,后在斯坦福获得博士学位的任泓宇。

o3-mini 作为 OpenAI 推理系列中最新、最具成本效益的模型,具有诸多亮点。它是首款支持开发者高频需求功能的小型推理模型,内置函数调用、结构化输出和开发者消息等专业功能,可直接投入生产环境,极大地便利了开发者的工作。此外,开发者还能根据实际场景需求,灵活选择低、中、高三级推理强度,使模型在应对复杂挑战时能够 “深度思考”,在需要快速响应时优先保证速度,满足了不同场景下的多样化需求。

在性能方面,虽然 o3-mini 的性能表现逊于 o1-pro,但速度更快。OpenAI 此前公布的基准数据显示,在 Codeforces 编程基准上,o3-mini (low) 性能不及 o1,high 版本则表现更好,整体具备更高的成本效益,在编程应用场景中优势明显。OpenAI 的 Dylan Hunn 也曾强调过 o3-mini 在编程速度上的优势。而相比 o3 模型,o3-mini 在性能与成本平衡方面表现更加出色,能够以较低成本提供高效服务。在中位思考时间下,o3-mini 胜过正式版 o1 模型,能够以大约一个数量级的更低成本提供相当甚至更好的代码性能,且响应时间大大缩短,达到了 o1 的一半。

此次 o3-mini 的发布,在开放策略上也有新突破。ChatGPT Plus、Team 及 Pro 用户即日起即可体验 o3-mini,企业用户将在一周后获得访问权限。尤为引人注目的是,即日起免费版用户也可通过消息编辑器选择 “推理” 模式或重新生成回复来试用 o3-mini,这是 ChatGPT 首次向免费用户开放推理模型,有望进一步扩大 OpenAI 产品的用户群体和影响力。

山姆・奥特曼在社交媒体平台 X 上积极与网友互动,透露了不少关于 o3-mini 的信息。他表示 o3-mini 会向 ChatGPT Plus 订阅者提供,并不限于 200 美元月供的 Pro 用户,使用额度 “真的高”。他还抬出了 o3,表示这个版本会比 o1-pro 聪明得多,更别提 o3-pro 了,同时表示 o3-pro 的定价不会是一个月 2000 美元起,200 美元的 Pro 订阅者应该就能获得一定的使用额度 。此外,奥特曼还谈到了 GPT 系列与 o 系列模型品牌融合的问题,该融合行动预计将在今年发生。

o3-mini 的上线,无疑在人工智能领域扔下了一颗 “重磅炸弹”。它不仅为开发者和用户带来了新的选择,也可能引发行业内其他公司的一系列反应,进一步推动人工智能技术的发展和应用。未来,o3-mini 将如何在市场中发挥作用,OpenAI 又将如何推进 o 系列模型的发展,都值得持续关注。

o3-mini 的性能指标:快速、强大且针对 STEM 推理优化

与其前身 OpenAI o1 类似,OpenAI o3-mini 针对 STEM 推理进行了优化。o3-mini-medium 在数学、编程和科学领域的表现与 o1 相当,同时响应速度更快。专家测试人员的评估显示,o3-mini 产生的答案比 o1-mini 更准确、更清晰,推理能力更强。测试人员在 56% 的情况下更偏好 o3-mini 的响应,并观察到 o3-mini 在困难的现实问题上重大错误减少了 39%。o3-mini-medium 在一些最具挑战性的推理和智能评估(包括 AIME 和 GPQA)上与 o1 的表现相当。

竞赛数学(AIME 2024):

竞赛数学:o3-mini-low 与 o1-mini 的表现相当。o3-mini-medium 达到与 o1 相当的表现。o3-mini-high 超过了 o1-mini 和 o1,上图中灰色阴影区域为 64 个样本的多数投票(共识)。

博士级科学问题(GPQA Diamond):

博士极科学问题:o3-mini-low 的表现优于 o1-mini。o3-mini-high 的表现与 o1 相当,在博士级生物学、化学和物理问题上都显示出显著进步。

研究级数学(FrontierMath):

研究级数学:o3-mini-high 在 FrontierMath 上的表现优于其前代产品。使用 Python 工具时,o3-mini-high 能够在首次尝试时解决超过 32% 的问题,包括超过 28% 的具有挑战性的(T3)问题。

竞赛编程(Codeforces):

在 Codeforces 编程中, o3-mini 随着推理努力级别的提高获得了越来越高的 Elo 分数,均优于 o1-mini。o3-mini-medium 达到了与 o1 相当的表现。

软件工程(SWE-bench Verified):

软件工程:o3-mini 是 OpenAI 发布的在 SWEbench-verified 上表现最好的模型。o3-mini-high 使用开源 Agentless 框架可达到 39% 的准确率,使用内部工具可达到 61% 的准确率。

LiveBench 编码:

LiveBench 编码:即便是 o3-mini-medium 也超过了 o1-high,突显了其在编码任务中的效率。o3-mini-high 进一步扩大了领先优势,在关键指标上取得了显著更强的表现。

普通知识问题:

普通知识问题:o3-mini 在各个一般性知识领域的评估中都优于 o1-mini。

人类偏好评估:

人类偏好评估:外部专家测试人员的评估显示, o3-mini 产生的答案比 o1-mini 更准确、更清晰,推理能力更强,特别是在 STEM 领域。测试人员在 56% 的情况下更偏好 o3-mini 的响应,并观察到 o3-mini 在困难的现实问题上重大错误减少了 39%。

模型速度和性能

o3-mini 在保持与 OpenAI o1 相当的智能水平的同时,提供了更快的性能和更高的效率。除了上述 STEM 评估外,o3-mini-medium 的其他数学和事实性评估中也展现出优越的结果。在 A/B 测试中,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 为 10.16 秒。

延迟:o3-mini 的首个 token 生成时间平均比 o1-mini 快 2500 毫秒。

安全

OpenAI 教导 o3-mini 安全响应的主要技术之一是审慎对齐(deliberative alignment),这种对齐方式训练模型在回答用户提示之前,先对人工编写的安全规范进行充分的思考和推理。与 OpenAI o1 类似,研究人员发现 o3-mini 在具有挑战性的安全性和越狱评估上显著超越了 GPT-4o。在部署之前,OpenAI 使用了与 o1 相同的准备方法、外部红队测试和安全性评估来仔细评估 o3-mini 的安全风险。

违规内容评估结果

越狱评估结果

未来展望

OpenAI o3-mini 的发布标志着 OpenAI 在推进高性价比智能方面又迈出了一步。通过优化 STEM 领域的推理能力,同时保持低成本,OpenAI 正在使高质量 AI 变得更加容易获取。该模型延续了其降低智能成本的记录 —— 自 GPT-4 推出以来,每个 token 的定价降低了 95%—— 同时保持顶级推理能力。随着 AI 应用的扩展,OpenAI 仍然致力于在前沿领域引领,构建即使在大规模部署和使用的情况下,也能保持智能、效率与安全平衡的模型。

来源:人工智能学家

相关推荐