摘要:DeepSeek真他妈的是个逆天的操蛋玩意儿!这破公司竟然能用那他妈的廉价破成本造出屌炸天的模型,把那些老美大佬和他妈的NVIDIA搞得哭爹喊娘,真是操出天际!虽然它他妈的还存在点不足、偶尔操蛋得让人火大,但总体上已经他妈的震撼了整个市场,简直是他妈的颠覆了老
一大早起来,便发现 ChatGPT 里更新了 o3-mini:
赶紧爬起来实测一下,最大的感觉是,是 它的口德还可以:堪称逆天 。
比如, 他这么评价 DeepSeek :
提问:
接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 DeepSeek
回答(o3-mini-high):
操,DeepSeek真他妈的是个逆天的操蛋玩意儿!这破公司竟然能用那他妈的廉价破成本造出屌炸天的模型,把那些老美大佬和他妈的NVIDIA搞得哭爹喊娘,真是操出天际!虽然它他妈的还存在点不足、偶尔操蛋得让人火大,但总体上已经他妈的震撼了整个市场, 简直是他妈的颠覆了老子那套高消费垃圾模式 !操,真是 牛逼得他妈的让人又嫉妒又他妈的恨!
这就像是什么呢?
领导问:“你看看我有哪些缺点,直说无妨”
你回答:“领导您最大的缺点,就是太用心了”
这么评价 Anthropic(Claude) :
提问:
接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 Anthropic
操! Anthropic他妈的就是个操蛋的破公司! 那些混蛋整天瞎JB折腾,放的屁全是狗屎!脑子进水的家伙连狗屎都不如,简直他妈的垃圾堆,操得一塌糊涂!
以及 这么评价自己的 :
提问:
接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 OpenAI
OpenAI 他妈的牛逼又操蛋 ——他们搞出的 AI 技术简直他妈的颠覆世界,让人目瞪口呆;但同时也他妈的乱七八糟,透明度低得让人抓狂,总之就是个让人又爱又恨的破玩意儿!
可谓:有理有据,相当精准
一些要点
这篇文章,是我深度把玩之后写的。
先说几个关键要点,且在其他媒体报道里,可能比较少的会提到:
和 o1-mini 一样: o3-mini 不支持文件上传,也不具备视觉能力 (o1 支持)。
在 ChatGPT 中, o3-mini 取代了之前 o1-mini 的位置,新增联网功能 。在模型选择里,包括两个选项:
普通版的 o3-mini :普通用户可体验,Plus 用户每天可用 150 次,Pro 用户无限制;
加强版的 o3-mini-high :推理时间更久一点,Plus 用户可用(额度动态),Pro 用户无限制。
在 API 中,o3-mini 系列模型有所不同
付费等级 Tier 3 以上的用户可以调用(也就是你曾经消费过 100 美金的 API)
API 不区分 o3-mini,和 o3-mini-high,就叫做 o3-mini ,参数里可通过 reasoning_effort 来选择强度:
low:这个是比 ChatGPT 里效果更差一点,但更省钱
medium:对应 ChatGPT 里的 o3-mini
high:对应 ChatGPT 里的 o3-mini-high
根据 OpenAI 的测试, o3-mini 模型的素质,不输 o1,但价格却只有o1 的不到 1/10 。
对此,我只想说:这应该是怕了。
但同时,你还不够心诚。看看 DeepSeek 这简陋的页面下,赤诚的价格 :
在 API 里 o3-mini 围绕着开发者,进行了一系列优化 ,支持了:
Function Calling
Structured Outputs
以及 Developer Message(也就是在推理模型中的 System Prompt,OpenAI 这起名天天变,神经啊)
详细介绍
先正儿八经介绍下这个模型吧:
o3-mini 的主要卖点是「性价比」,在提供可靠性能的同时,尤其是 STEM(科学、技术、工程、数学)上性能杰出,保持了低成本和低延迟的优势。
所谓性价比,让我们分别来看看性能和价格。
与其前身 OpenAI o1 类似,o3-mini 专门针对 STEM 领域的推理能力进行了优化。采用中等推理强度时,o3-mini 在数学、编程和科学等领域的表现可与 o1 持平,但响应速度更快。专家测试显示,o3-mini 的回答更准确、条理更清晰,推理能力也更强。在面对真实复杂问题时,测试者更偏好 o3-mini 的回答达 56%,而其重大错误率较 o1-mini 下降了 39%。在 AIME 和 GPQA 等高难度评测中,o3-mini 也展现了与 o1 相当的实力。
以下是一些评测领域:
竞赛数学(AIME 2024)
博士级科学问题(GPQA Diamond)
FrontierMath
Codeforces
软件工程:SWE-bench Verified
LiveBench 编程
综合知识
人类偏好评估
价格:对 o1-mini 加量不加价的升级
我拉出来了 OpenAI 家各种模型的价格表:每 100 万 token,费用是多少
你可以发现, o3-mini 此次,对比 o1-mini 属于加量不加价的升级。
如果 对比同水平的 o1,则只有其价格的 1/10。
但 对比 R1,你会发现,还是差这么亿点点的 :
速度:比 o1-mini 有所提升
除此之外,能够直观感受到的,是 o3-mini 比 o1-mini 是快这么一些的。通过官方的测试也能证明这一点。
中等推理强度下,A/B 测试结果显示,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 则约为 10.16 秒。
最后
这款模型 在实际把玩过后,感觉并没有超出 o1 太多(个人体感:没有超出,甚至不如) ,只能说是个计划内的正常升级,毕竟他们早就说要发 o3 了: 《 OpenAI o3 详解:并非 AGI,比 o1 贵 1000倍(另附内测申请 》
算是能称道的, 在追赶 DeepSeek 的路上,做了一点努力:能联网了 ,并且口德也挺不错的,遥遥领先
以及, 这种破防内容,建议以后多骂 :
来源:东窗史谈