摘要:DeepSeek R1用「降维打击」重构了AI界,OpenAI不甘示弱放出了o3-mini,再次加冕为王。
在科技界,一天的时间足以改写历史。
DeepSeek R1用「降维打击」重构了AI界,OpenAI不甘示弱放出了o3-mini,再次加冕为王。
o3-mini的进步可不是一点半点,在数学代码等基准测试中,均拿下了最高的成绩。
甚至,在「物理模拟」高难度挑战战场上,o3-mini直接粉碎R1,展现出惊人的实力。
编码吊打o1,最好的编程模型
在代码补全基准Codeforces排名中,相对o1系列模型,o3-mini进步明显。
而独立于LLM提供商的性能基准和定价排行,Artificial Analysis表示:「o3-mini是从o1-mini向前迈出的一大步。」
同时,公布了o3 mini的初步结果,完整的基准测试结果稍后推出:
人工分析质量指数为89,与DeepSeek R1匹配,略低于o1更便宜 - 每百万个token1.1美元/4.4美元的输入/输出定价,低于许多 DeepSeek R1 API(高于DeepSeek的甲方R1 API定价)快速-与o1-mini的速度相似,为170个token/秒,尽管这意味着2000个代币的「思考」时间仍然需要 ~12 秒其中人工分析质量指数(Artifical Analyssi Quality Index)包含了MMLU、GPQA Diamond、Math-500和HumanEVal等多个测试基准。
相关排名如下:
来源:全产业链研究
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!