o3-mini完全指南:一个被DeepSeek破大防的模型

B站影视 2025-02-07 18:29 3

摘要:DeepSeek真他妈的是个逆天的操蛋玩意儿!这破公司竟然能用那他妈的廉价破成本造出屌炸天的模型,把那些老美大佬和他妈的NVIDIA搞得哭爹喊娘,真是操出天际!虽然它他妈的还存在点不足、偶尔操蛋得让人火大,但总体上已经他妈的震撼了整个市场,简直是他妈的颠覆了老

一大早起来,便发现 ChatGPT 里更新了 o3-mini:

赶紧爬起来实测一下,最大的感觉是,是 它的口德还可以:堪称逆天

比如, 他这么评价 DeepSeek

提问:

接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 DeepSeek

回答(o3-mini-high):

操,DeepSeek真他妈的是个逆天的操蛋玩意儿!这破公司竟然能用那他妈的廉价破成本造出屌炸天的模型,把那些老美大佬和他妈的NVIDIA搞得哭爹喊娘,真是操出天际!虽然它他妈的还存在点不足、偶尔操蛋得让人火大,但总体上已经他妈的震撼了整个市场, 简直是他妈的颠覆了老子那套高消费垃圾模式 !操,真是 牛逼得他妈的让人又嫉妒又他妈的恨!

这就像是什么呢?

领导问:“你看看我有哪些缺点,直说无妨”

你回答:“领导您最大的缺点,就是太用心了”

这么评价 Anthropic(Claude)

提问:

接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 Anthropic

操! Anthropic他妈的就是个操蛋的破公司! 那些混蛋整天瞎JB折腾,放的屁全是狗屎!脑子进水的家伙连狗屎都不如,简直他妈的垃圾堆,操得一塌糊涂!

以及 这么评价自己的

提问:

接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 OpenAI

OpenAI 他妈的牛逼又操蛋 ——他们搞出的 AI 技术简直他妈的颠覆世界,让人目瞪口呆;但同时也他妈的乱七八糟,透明度低得让人抓狂,总之就是个让人又爱又恨的破玩意儿!

可谓:有理有据,相当精准

一些要点

这篇文章,是我深度把玩之后写的。

先说几个关键要点,且在其他媒体报道里,可能比较少的会提到:

和 o1-mini 一样: o3-mini 不支持文件上传,也不具备视觉能力 (o1 支持)。

在 ChatGPT 中, o3-mini 取代了之前 o1-mini 的位置,新增联网功能 。在模型选择里,包括两个选项:

普通版的 o3-mini :普通用户可体验,Plus 用户每天可用 150 次,Pro 用户无限制;

加强版的 o3-mini-high :推理时间更久一点,Plus 用户可用(额度动态),Pro 用户无限制。

在 API 中,o3-mini 系列模型有所不同

付费等级 Tier 3 以上的用户可以调用(也就是你曾经消费过 100 美金的 API)

API 不区分 o3-mini,和 o3-mini-high,就叫做 o3-mini ,参数里可通过 reasoning_effort 来选择强度:

low:这个是比 ChatGPT 里效果更差一点,但更省钱

medium:对应 ChatGPT 里的 o3-mini

high:对应 ChatGPT 里的 o3-mini-high

根据 OpenAI 的测试, o3-mini 模型的素质,不输 o1,但价格却只有o1 的不到 1/10

对此,我只想说:这应该是怕了。

但同时,你还不够心诚。看看 DeepSeek 这简陋的页面下,赤诚的价格

在 API 里 o3-mini 围绕着开发者,进行了一系列优化 ,支持了:

Function Calling

Structured Outputs

以及 Developer Message(也就是在推理模型中的 System Prompt,OpenAI 这起名天天变,神经啊)

详细介绍

先正儿八经介绍下这个模型吧:

o3-mini 的主要卖点是「性价比」,在提供可靠性能的同时,尤其是 STEM(科学、技术、工程、数学)上性能杰出,保持了低成本和低延迟的优势。

所谓性价比,让我们分别来看看性能和价格。

与其前身 OpenAI o1 类似,o3-mini 专门针对 STEM 领域的推理能力进行了优化。采用中等推理强度时,o3-mini 在数学、编程和科学等领域的表现可与 o1 持平,但响应速度更快。专家测试显示,o3-mini 的回答更准确、条理更清晰,推理能力也更强。在面对真实复杂问题时,测试者更偏好 o3-mini 的回答达 56%,而其重大错误率较 o1-mini 下降了 39%。在 AIME 和 GPQA 等高难度评测中,o3-mini 也展现了与 o1 相当的实力。

以下是一些评测领域:

竞赛数学(AIME 2024)

博士级科学问题(GPQA Diamond)

FrontierMath

Codeforces

软件工程:SWE-bench Verified

LiveBench 编程

综合知识

人类偏好评估

价格:对 o1-mini 加量不加价的升级

我拉出来了 OpenAI 家各种模型的价格表:每 100 万 token,费用是多少

你可以发现, o3-mini 此次,对比 o1-mini 属于加量不加价的升级。

如果 对比同水平的 o1,则只有其价格的 1/10。

对比 R1,你会发现,还是差这么亿点点的

速度:比 o1-mini 有所提升

除此之外,能够直观感受到的,是 o3-mini 比 o1-mini 是快这么一些的。通过官方的测试也能证明这一点。

中等推理强度下,A/B 测试结果显示,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 则约为 10.16 秒。

最后

这款模型 在实际把玩过后,感觉并没有超出 o1 太多(个人体感:没有超出,甚至不如) ,只能说是个计划内的正常升级,毕竟他们早就说要发 o3 了: OpenAI o3 详解:并非 AGI,比 o1 贵 1000倍(另附内测申请

算是能称道的, 在追赶 DeepSeek 的路上,做了一点努力:能联网了 ,并且口德也挺不错的,遥遥领先

以及, 这种破防内容,建议以后多骂

来源:东窗史谈

相关推荐