摘要:总部位于旧金山的公司推出了 o3 和 o4-mini —— “o 系列”推理模型的最新版本,据称是迄今为止最智能且功能最强大的模型。这些系统能够将图像直接融入推理过程,进行网络搜索、运行代码、分析文件,甚至在单一任务流程中生成图像。
OpenAI 今日发布了两款突破性的 AI 模型,它们能够处理图像并独立使用工具,代表了专家所称的人工智能能力的质的飞跃。
总部位于旧金山的公司推出了 o3 和 o4-mini —— “o 系列”推理模型的最新版本,据称是迄今为止最智能且功能最强大的模型。这些系统能够将图像直接融入推理过程,进行网络搜索、运行代码、分析文件,甚至在单一任务流程中生成图像。
“有些模型仿佛迈向未来的质的步骤。GPT-4 就是其中之一,而今天也将成为这样的一个时刻,” OpenAI 总裁 Greg Brockman 在宣布发布时的新闻发布会上表示,“这些模型是首批顶尖科学家认可的,能够生成真正出色且有用的全新创意。”
为什么 OpenAI 的新模型能够“以图像思考”,从而改变视觉问题解决方案 这些新模型最引人注目的特点在于它们能够“以图像思考” —— 不仅仅是看图像,而是能利用图像进行操作和推理,作为其解决问题过程的一部分。
OpenAI 在发给 VentureBeat 的一份声明中表示:“它们不仅仅是看到图像 —— 而是与图像共同思考。 这开启了一种全新的问题解决方式,融合了视觉与文本的推理。”
在新闻发布会的一次演示中,一位研究员展示了 o3 如何分析一张十年前实习时所用的物理海报,独立处理其复杂的图表,甚至识别出海报中并未体现的最终结果。
“对我来说,它可能在几秒钟内已经阅读了至少 10 篇不同的论文,” OpenAI 从事多模态推理研究的研究员 Brandon McKenzie 在演示中说道。他估计这个任务对他来说需要“花费好几天时间,仅仅把自己调整到项目状态,然后可能又需要几天时间真正查阅文献。”
AI 能够在其推理过程中操作图像 —— 比如放大细节、旋转图表或裁剪掉多余元素 —— 这种能力代表了一种全新的方法,业内分析人士称这有可能彻底改变从科学研究到教育等多个领域。
我曾抢先体验过,o3 是个令人印象深刻的模型,似乎非常能干。一些有趣的例子: 1) 破解了一份我课堂上使用的商业案例 2) 创建了一些 SVG 图像(纯代码生成的图像) 3) 编写了一篇关于两个相互嵌套的环流的约束性故事 4) 硬核科幻太空大战。 pic.twitter.com/TK4PKvKNoT — Ethan Mollick (@emollick) 2025年4月16日
超越 AI 模型:o3 与 o4-mini 如何作为完整 AI 系统,通过先进工具集成实现功能 OpenAI 高管强调,这次发布不仅仅代表了模型的改进 —— 它们是完整的 AI 系统,在解决问题时能够独立使用并串联多个工具。
“我们通过强化学习训练它们使用工具 —— 不仅教会它们如何使用工具,还教会它们判断何时使用工具,”公司在发布声明中解释道。
Greg Brockman 强调了模型广泛的工具使用能力:“它们在解决复杂问题的思考链中,实际上会调用这些工具。比如,我们观察到 o3 在解决一个非常复杂的任务时连续调用了约 600 次工具。”
这一能力使得这些模型可以在无需人类持续干预的情况下执行复杂的多步骤流程。例如,如果被询问加州未来的能源使用模式,AI 能够搜索网络上的公用事业数据、编写 Python 代码进行分析、生成可视化图表,并最终形成一份综合报告 —— 整个过程流畅连贯。
OpenAI 凭借在关键 AI 基准测试中的破纪录表现远超竞争对手 OpenAI 声称 o3 在 Codeforces、SWE-bench 和 MMMU 等关键 AI 能力指标上树立了全新的前沿标准。在外部专家的评估中,据称 o3 在困难的现实任务中比其前一代模型减少了 20% 的重大错误率。
较小的 o4-mini 模型在保持强大推理能力的同时,针对速度和成本效率进行了优化。在 2025 年 AIME 数学竞赛中,o4-mini 在获得 Python 解释器支持下取得了 99.5% 的高分。
“我坚信,依靠这整套模型 —— o3 和 o4-mini —— 我们将会见证更多进步,” OpenAI 研究负责人 Mark Chen 在新闻发布会上表示。
此次发布的时机具有重大意义,仅仅在 OpenAI 发布其擅长编码任务的 GPT-4.1 模型两天后,这两款新模型便闪亮登场。连续的发布表明,在竞争激烈的 AI 市场中,OpenAI 正面临来自 Google 的 Gemini 模型、Anthropic 的 Claude 以及 Elon Musk 的 xAI 越来越大的压力。
上个月,OpenAI 完成了迄今为止最大规模的私人科技融资,融资金额达到 400 亿美元,估值达 3000 亿美元。据称,公司还在考虑构建自己的社交网络,可能以此与 Elon Musk 的 X 平台竞争,并确保获得专有的训练数据来源。
“o3 和 o4-mini 在编程方面表现极为出色,因此我们推出了一款新产品,Codex CLI,以便更方便地使用它们。这是一款在你电脑上运行的代码代理,完全开源,并已于今日上线;我们预计它会迅速改进。” — Sam Altman (@sama) 2025年4月16日
OpenAI 的新模型如何以空前的代码导航能力变革软件工程 新模型在软件工程领域的表现尤为出色。Brockman 在新闻发布会上指出,o3 实际上比他自己更擅长在 OpenAI 的代码库中导航,这一能力非常实用。
在此次发布中,OpenAI 同时推出了 Codex CLI,这是一款轻量级代码代理,可直接在用户终端上运行。该开源工具让开发者能够利用模型的推理能力处理编码任务,并支持截图和草图输入。
“我们还分享了一个全新实验项目:Codex CLI —— 一款你可以直接在终端上运行的轻量级代码代理,”公司宣布,“你只需要通过传递截图或低保真草图到模型,同时结合本地代码,就可以从命令行体验到多模态推理的优势。”
为了鼓励采用,OpenAI 正在启动一项 100 万美元的计划,以支持使用 Codex CLI 与 OpenAI 模型的项目,资助将以每 25,000 美元的 API 信用额度发放。
解密 OpenAI 强化的安全协议:公司如何防范 AI 滥用 OpenAI 报道称已经对这些新模型进行了广泛的安全测试,特别关注它们在拒绝有害请求方面的表现。
公司的安全措施包括完全重构其安全训练数据,并开发了系统级缓解措施,以标记危险提示。
“我们用目前最严格的安全计划对这两款模型进行了压力测试,”公司表示,并指出 o3 与 o4-mini 在生物安全、网络安全及 AI 自我改进能力方面的潜在风险均低于 OpenAI 的 “High” 阈值。
在新闻发布会上,OpenAI 研究人员 Wenda 与 Ananya 展示了详细的基准测试结果,他们指出,为了达到当前的能力,新模型的训练计算量是前一版本的 10 倍以上。
o3 与 o4-mini 的开放时间及访问方式:部署时间表与商业策略 这两款新模型现已向 ChatGPT Plus、Pro 与 Team 用户开放,企业及教育客户将于下周获得访问权限。免费用户可以在提交查询前,在创作界面中选择 “Think” 来试用 o4-mini。
开发者可以通过 OpenAI 的 Chat Completions API 及 Responses API 访问这两款模型,不过部分机构可能需要进行验证后才能访问。
此次发布为 OpenAI 带来了重大的商业机遇,因为这些模型不仅比先前版本更强大,而且在成本效益方面也更为出色。“例如,在 2025 年 AIME 数学竞赛中,o3 的成本效益严格优于 o1,同样地,o4-mini 的效能也严格优于 o3-mini,”公司表示。
AI 的未来:OpenAI 如何融合推理与对话构建下一代系统 业内分析人士认为,此次发布是 AI 能力更广泛融合趋势的一部分,模型正日益将专门的推理能力与自然对话技能及工具使用相结合。
OpenAI 在发布声明中指出:“今天的更新反映了我们模型的发展方向:我们正将 o 系列的专门推理能力与 GPT 系列更自然的对话能力和工具使用相融合。”
沃顿商学院研究 AI 采纳的副教授 Ethan Mollick 在公告后的社交媒体帖子中形容 o3 为“非常强大的模型,但仍然略显粗糙”。
随着 AI 领域竞争不断加剧,Google、Anthropic 及其他公司不断推出更强大的模型,OpenAI 对推理能力和实际工具使用的双重注重,表明其战略旨在通过兼具智能与实用性维持行业领导地位。
有了 o3 与 o4-mini,OpenAI 已经迈过了一个关键门槛,机器开始像人类一样感知图像 —— 将视觉信息作为思考过程的一个不可或缺的部分进行操作,而不再仅仅是分析所见。由被动识别向主动视觉推理的这一转变,最终可能比任何基准分数更为意义重大,标志着 AI 开始真正用“思考的眼睛”看待世界。
来源:至顶网一点号