OpenAI发布“会思考的模型”o3和o4-mini,工具调用能力大升级

B站影视 日本电影 2025-04-17 10:10 1

摘要:备受关注的 o3 完全体主打性能强悍,不负众望地在多个基准测试上追平/超越了竞争对手的最强模型,而 o4-mini 则接过了“性价比最高”的头衔。

4 月 17 日凌晨,OpenAI 带来了两个新模型。

一个是 o3 完全体,另一个是 o3-mini 的下一代 o4-mini。

两个模型均属于 o 系列推理模型,不同于主打对话自然性的 GPT 系列,它们的目标是“会思考的模型”。

备受关注的 o3 完全体主打性能强悍,不负众望地在多个基准测试上追平/超越了竞争对手的最强模型,而 o4-mini 则接过了“性价比最高”的头衔。

最引人注目的是,它们首次具备了真正的视觉推理能力:不仅能看图识图,更能看图思考。上传一张板书、图表、手写草图或者截图,模型就能基于图像展开分析、生成代码,甚至动手操作图像本身。

图 | 看图思考功能(来源:OpenAI)

以往的语言模型虽然支持上传图片,但更多是识别图像,而不是推理。o3 和 o4-mini 打破了这一限制,它们能够将图片信息真正整合进推理链条中,成为模型决策过程的一部分。

在直播演示中,OpenAI 在 X 上截取了一张有关“图像到 ASCII 风格转换”的推文图片,直接丢给 o3。

经过推理后,o3 模型询问是否要按截图中的需求生成代码,在获得后续提示后,它成功生成了可运行代码,能够实时将摄像头的视频流转化成 ASCII 风格。

“它们不只是看图,而是用图像来思考。”OpenAI 表示。

图 | o3 生成代码的效果(来源:OpenAI)

目前,o3 和 o4-mini 已向 ChatGPT Plus、Pro、Team 用户开放,并替代旧版 o1 和 o3-mini。企业和教育版用户将在一周后将获得接入权限。

免费用户可以通过 ChatGPT 的“思考”功能体验 o4-mini。API 开发者可以通过 Chat Completions API 和 Responses API 使用新模型和新能力。

在定价方面,o3 的每百万输入 token 为 10 美元,每百万输出 token 为 40 美元。而 o4-mini 的定价仅有其十分之一左右,每百万输入 token 为 1.1 美元,每百万输出 token 为 4.4 美元。

图 | o3 和 o4-mini 定价(来源:OpenAI)

据 OpenAI 介绍,o3 是其最强大的通用推理模型,特别擅长处理编程、数学、科学和图像分析等任务。与上一代 o1 模型相比,它在处理商业咨询、编程创意等真实世界复杂任务时,重大错误率降低了 20%。

而 o4-mini 则是一款轻量级模型,强调高性价比和高吞吐量,适用于更频繁、更成本敏感的应用场景。

图 | 成本 VS 性能(来源:OpenAI)

在基准测试成绩方面,o3 和 o4-mini 在所有测试中都大幅超越了上一代模型 o1 和 o3-mini。o4-mini 甚至在 AIME 2025 数学竞赛中(启用 Python 工具后)达到了 99.5% 的惊人成绩,几乎封顶该测试。

相比竞争对手的最强模型 Gemini 2.5 Pro 和 Claude 3.7 Sonnet,o3 和 o4-mini 与它们不分伯仲,在不同的测试中互有胜负。

图 | 编程测试成绩(来源:OpenAI)

有意思的是,OpenAI 在 2024 年 12 月第一次公开 o3 模型时,曾给出了一些测试的成绩,比如 SWE-Bench Verified 是 71.7,Codeforces 是 2727,AIME 2024 是 96.7,GPQA 是 87.7。

但再看 OpenAI 今天给出的成绩,o3 的分数均出现了下滑,具体原因未知。

如果将 o3 的新成绩放到一些主流大模型榜单上,它将被 Gemini 2.5 Pro 或 Claude 3.7 Sonnet 反超,哪怕只有零点几分。这也侧面说明如今的大模型竞争有多激烈——零点几分的差距就决定了谁是(纸面上的)第一名。

“与我们之前的推理模型相比,这两个模型的体验更加自然、更具对话性,尤其是在参考记忆和历史对话的情况下,能给出更个性化和相关的回复。”OpenAI 表示。

图 | 多模态测试成绩(来源:OpenAI)

两个新模型最重要的一大特征是具备“用工具解决问题”的能力,OpenAI 称之为“agentic tool use”。它支持调用 ChatGPT 工具集,包括联网搜索、代码解释、文件分析、图像编辑等等。

在任务执行中,模型可以像数字代理一样,自主决定是否调用工具、调用哪个工具、以何种顺序完成多步骤任务,并快速输出高质量结果,大多数情况下只需一分钟左右。

比如用户提问:“今年夏天加州的能源使用情况和去年相比会怎样?”

模型可以自动联网搜索公共电力数据、用 Python 编写预测脚本、生成图表,并用自然语言解释影响因素。整个流程几乎无需用户介入。

它的工具调用策略也变得更聪明:遇到信息不足时,它可以自行重新搜索、换关键词,尝试不同角度;在需要写代码时,它能动态调用 Python,或者结合文件分析器查阅用户上传的 Excel 或 PDF 数据。

这一变化的意义不仅在于多模态处理能力的增强,更在于它奠定了未来代理型 AI 的核心基础:感知(视觉输入)、思考(逻辑推理)、行动(调用工具)。

这使得模型在处理真实世界任务时更接近一个真正的“数字执行者”,而不只是一个“聪明的聊天机器人”。

不过 OpenAI 也指出了目前视觉推理能力的局限性,比如思维链过长,模型可能会执行冗余或不必要的工具调用和图像处理步骤,出现基本视觉感知错误,推理可靠性有待提升等等。

除了模型本身,OpenAI 这次还发布了一个新工具实验:Codex CLI。一个可以直接在终端(terminal)运行的轻量级 AI 编程助手,支持调用 o3 和 o4-mini 等模型。

Codex CLI 现已开源,同时 OpenAI 还启动了一项 100 万美元的项目资助计划,用于鼓励开发者围绕 CLI 和 OpenAI 模型构建新工具。

OpenAI 还透露将在数周内推出 o3-pro,提供更全面的工具支持。

接下来,OpenAI 计划继续推动“推理模型与对话模型”的融合,即结合 GPT 系列的自然语言交互能力和 o 系列的工具使用能力。

这或许意味着传闻中的 GPT-5 离我们不远了。

参考资料:

排版:刘雅坤

来源:DeepTech深科技一点号

相关推荐