摘要:o3以其卓越的推理性能在多个基准测试中创下新纪录,而o4-mini则以其轻量高效的特点适合大规模调用场景。本文将通过实际案例,展示这些新一代AI模型如何在图像理解、代码编写和复杂问题解决中展现出色的能力,以及它们如何为各个领域带来新的可能性。
o3以其卓越的推理性能在多个基准测试中创下新纪录,而o4-mini则以其轻量高效的特点适合大规模调用场景。本文将通过实际案例,展示这些新一代AI模型如何在图像理解、代码编写和复杂问题解决中展现出色的能力,以及它们如何为各个领域带来新的可能性。
实测案例在文末,一张图片完成推理定位,抓小三业务有了新神器😄😄
概述OpenAI 推出了 o3 和 o4-mini 两个新一代推理模型,可以图片推理
o3(更聪明)和o4-mini(更轻快)。
它们不仅能看图、写代码、查资料,还能思考问题决定怎么解决问题,特别擅长逻辑推理和工具组合用法。
模型特性:
目前最好的多模态推理能力
完整访问 ChatGPT 所有工具(搜索、代码、图像、文件等)
深度任务思考能力(强化学习训练)
专为复杂问题设计,响应更细致、格式更合理
具备 Agent-like 智能,可以自主决定用哪些工具解决问题
多模态对比哎,谁能想到,AI的发展竟然最先被影响的高薪工作是IT工程师。
性能表现:
在 Codeforces、SWE-bench、MMMU 等基准测试上创下新纪录。
相比 o1 模型,重大错误减少 20%,特别在编程、商业咨询、创意生成等任务中表现卓越。
领域表现:
在图像推理任务(如图表、手绘草图、照片分析)中精度极高。
能像思维伙伴一样提出并评估创新假设,尤其擅长生物学、数学和工程场景。
对话风格更自然:引入记忆引用,能参考上下文和过往聊天,使回答更连贯、个性化。
性价比极高:
小模型但性能突出,尤其适合大规模调用场景。
在 AIME 2025(数学竞赛)中使用 Python 工具后得分达 99.5%,几乎满分。
非STEM任务能力提升:
比 o3-mini 在数据科学、语言类任务上表现更好。
适合处理大批量需要推理的请求,如客户服务、教育、运营分析等。
应用特点它们“能看、会想、懂工具”
1. 能看图理解内容
能识别图表、扫描页、截图、手绘图等复杂图像。
还可以主动放大、旋转、裁剪图像,作为思考的一部分。
2. 懂得“该用什么工具解决问题”
它们可以自己决定:
要不要搜索?
要不要写代码算一算?
要不要画张图解释一下?
实操案例问题
分析过程
OpenAI新模型,可以进行图片推理,更智能,可以规划
GPT-4.1/4.1 mini/4.1 nano全面超越前代,编程能力大幅提升!
来源:人人都是产品经理