87.5%,疯了

B站影视 2024-12-23 16:06 2

摘要:前两天,OpenAI发布了下一代的推理模型o3,这是今年早些时候发布的o1推理模型的升级版本。

OpenAI终于放大招了。

前两天,OpenAI发布了下一代的推理模型o3,这是今年早些时候发布的o1推理模型的升级版本。

为啥不叫o2呢?

该公司发言人表示,“是出于对同名英国电信运营商o2的尊重”。

更准确地说,o3是一个模型系列——就像o1一样,同时有o3和o3-mini两个版本,后者是一款更小的精简版模型,针对特定任务进行了微调。

值得注意的是,o3-mini的训练者是北大计算机系毕业,后在斯坦福获得博士学位的任泓宇。

那o3到底有多强?

按OpenAI的说法,o3模型在ARC-AGI图形逻辑推理基准上获得了破纪录的分数。

作为对比,o1模型的得分仅在25%到32%之间。o3的表现几乎是o1三倍。

AIME 2024(高级数学考试)的正确答案率为96.7%。远高于o1预览版的56.7%和o1的83.3%。

最值得关注的是,在全球著名的编码竞赛平台odeforces评分中,o3取得了2727的评分,而o1评分仅为1891。

要知道这是17万程序员里的排名,o1大概也只战胜90%多的程序员,之前GPT-4o只战胜11%的程序员。

低计算场景中,o3得分为75.7%,而在高计算测试中,它达到了87.5%

人类在ARC-AGI上的平均成就率为84%,因此达到85%被认为是人工智能的一个重要里程碑。

也就是说,超过了标志着达到人类水平的门槛。

然而,即使使用 OpenAI 的模型,分数在很长一段时间内都没有任何提高,因为从 2020 年 GPT-3 的 0% 到 2024 年 GPT-4 的 5% 用了四年的时间。

OpenAI声称,至少在某些条件下,o3模型可以接近实现AGI。

所谓AGI——

即“通用人工智能”(artificial general intelligence)的缩写,泛指能完成人类所能完成的任何任务的人工智能。

ARC-AGI 由人工智能研究员 François Cholet 于 2019 年设计,评估人工智能理解抽象概念并将其应用于新情况的能力,而不是简单地学习数据相关性。

例如,如果您被问到上图中的输入和输出之间有什么区别,你会立即注意到方形空白区域只是用深蓝色填充。

这些都是人类很容易理解的规律,但这些问题对于不擅长抽象和推理的传统人工智能来说却很难。

OpenAI对此有着自己的定义:“在最具经济价值的工作上胜过人类的高度自主系统”。

o3 和 o3-mini 最初将通过安全和安保测试计划向研究人员提供早期访问权限。如果一切顺利,预计将于 2025 年 1 月下旬开始提供 o3-mini,随后发布完整型号。

未来...

别人的iPhone √
我们的iPhone X

还有,我们到底还在卷什么?

来源:笑料百宝箱

相关推荐