o3-mini物理推理粉碎DeepSeek R1,OpenAI王者归来!

B站影视 2025-02-02 14:16 2

摘要:DeepSeek R1用「降维打击」重构了AI界,OpenAI不甘示弱放出了o3-mini,再次加冕为王。

在科技界,一天的时间足以改写历史。

DeepSeek R1用「降维打击」重构了AI界,OpenAI不甘示弱放出了o3-mini,再次加冕为王。

o3-mini的进步可不是一点半点,在数学代码等基准测试中,均拿下了最高的成绩。

甚至,在「物理模拟」高难度挑战战场上,o3-mini直接粉碎R1,展现出惊人的实力。

编码吊打o1,最好的编程模型

在代码补全基准Codeforces排名中,相对o1系列模型,o3-mini进步明显。

而独立于LLM提供商的性能基准和定价排行,Artificial Analysis表示:「o3-mini是从o1-mini向前迈出的一大步。」

同时,公布了o3 mini的初步结果,完整的基准测试结果稍后推出:

人工分析质量指数为89,与DeepSeek R1匹配,略低于o1更便宜 - 每百万个token1.1美元/4.4美元的输入/输出定价,低于许多 DeepSeek R1 API(高于DeepSeek的甲方R1 API定价)快速-与o1-mini的速度相似,为170个token/秒,尽管这意味着2000个代币的「思考」时间仍然需要 ~12 秒

其中人工分析质量指数(Artifical Analyssi Quality Index)包含了MMLU、GPQA Diamond、Math-500和HumanEVal等多个测试基准。

相关排名如下:

来源:全产业链研究

相关推荐