摘要:全球领先的人工智能公司OpenAI于今日正式发布了最新一代推理AI模型——o3。作为目前最强大的推理模型之一,o3的性能在多个评测中接近甚至超越人类水平,标志着通用人工智能(AGI)发展迈出了关键一步。
全球领先的人工智能公司OpenAI于今日正式发布了最新一代推理AI模型——o3。作为目前最强大的推理模型之一,o3的性能在多个评测中接近甚至超越人类水平,标志着通用人工智能(AGI)发展迈出了关键一步。
OpenAI首席执行官山姆·奥特曼在发布会上表示:“我们认为这是AI下一阶段的开始。o3能够完成许多复杂且需要深度推理的任务,尤其在编程和数学领域表现令人难以置信。”
此次发布的o3包括两个版本。o3完整版专注于高性能推理任务,o3-mini版则为轻量化版本,旨在以更高性价比完成高效任务。o3和o3-mini支持低、中、高三档推理时间设置。用户可根据任务复杂度选择推理时间,推理时间越高,模型表现越好;反之,低推理设置下模型响应速度接近即时,特别适合低延迟的应用场景。
OpenAI宣布,将从即日起向安全研究人员开放o3的访问权限,申请截止日期为明年1月10日。o3-mini预计将于明年1月底发布,而完整版则将在之后推出。
ARC-AGI测试旨在评估AI的类人推理能力,要求AI模型具备学习新规则的能力,而不仅仅是重复记忆。例如,通过输入-输出示例推断规则,或从未见过的数据中推导复杂逻辑。
在ARC-AGI测试中,o3在设置为高推理能力下获得了87.5%的分数,首次突破人类水平阈值(85%);在低推理能力设置下的分数75.7%,也是o1的3倍。o3一举将成绩提升到87.5%,着实令人吃惊。与之前的大模型相比,GPT-3的测试结果为0%,GPT-4o为5%,o3能够应对以前从未遇到过的任务,可说是相当接近人类水平。
o3 ARC-AGI测试在两个数据集上进行,一个是100道私密题目,另一个是400道公开题目。o3低推理设置下的成绩是75.7%,而o3高推理设置下(172倍消耗)则能达到87.5%。在公开数据集上的表现更好,分别达到了82.8%和91.5%。
当前,o3模型的使用成本仍然偏高。在低推理设置下,完成一个任务的成本约为20美元;而在高推理设置下,单任务成本则高达3440美元。这意味着,在高推理模式下,向o3提一个简单问题,例如 “9.09和9.11哪个更大”,可能需要花费约2万人民币。ARC-AGI 400个公开题目+100个私密题目总共就花费了1600250美元!
尽管如此,随着技术进步和优化,成本性能将在未来几年内显著改善。预计o3的能力将在不久的将来具备与人类工作竞争的潜力。
OpenAI明年将与ARC-AGI背后的基金会合作构建下一个基准测试。在其他基准测试中,o3的表现同样远超其他大模型。
在由真实世界软件任务组成的SWE-Bench Verified基准测试中,o3模型的准确率为71.7%,比o1模型高出20%以上。OpenAI研究高级副总裁Mark Chen说:“这确实意味着我们正在攀登实用性的前沿。”
在编程竞赛Codeforces中,o1的分数是1891,而o3在高推理设置下居然可以达到2727的分数——几乎媲美全球顶级人类程序员的水平,在低推理设置下取得的分数也超过了o1模型。从Codeforces排行榜来看,o3的成绩排到第175名。而OpenAI现任首席科学家在Codeforces的历史最高得分是2655。
在数学基准测试AIME 2024(美国高中数学邀请赛,相当于中国高中数学联赛,数学奥赛筛选赛)中,o3的准确率达到96.7%,只漏掉了一个问题,而o1的准确率为83.3%。
在衡量博士级科学问题的严苛基准测试GPQA Diamond(生物、物理、化学等领域测试题)中,o3的准确率高达87.7%,比o1的78%提高约10%。而人类专业博士为70%。
o3还在陶哲轩等60余位全球数学家共同推出的号称业界最强数学基准的EpochAI Frontier Math中创下新纪录,分数达到25.2。而其他模型都没有超过2.0。
对于o3模型的登场,最后不妨来看看一些网友的看法:
“想象一个场景:假设你是个程序员,正在开发一个复杂的app。突然遇到了一个棘手的bug,怎么也找不出原因。这时,你想起了刚发布的o3-mini。你把问题描述给它,包括代码和错误信息。o3-mini不仅迅速找出了bug,还给出了详细的修复方案,甚至还主动指出了你代码中其他可能存在的潜在问题。这不仅节省了你大量的调试时间,还帮你提高了代码质量。你惊讶地发现,使用o3-mini就像有了一个24小时待命的超级程序员助手,而且它的反应速度和解决问题的能力远超你的预期。虽然现在o3还不能直接使用,但它的出现预示着AI领域即将迎来新的突破,这对于各行各业都可能产生深远的影响。”
“o3的编程能力有多恐怖?IOI奥赛金牌,国际特级大师,全球175名,全OpenAI只有1人比它强点。o3的编程elo分高达2727,在所有人类中排名第175名。按照elo等级划分,距离最高档3000分也不远了,已经属于第二档高手——国际特级大师水平。IOI国际信息学奥赛的金牌选手,大概略低于2500分。o3妥妥的金牌。”
“o3在代码能力Codeforces评测中获得了2700以上的高分!Codeforces 2700分和1800分之间大概水平差了10-100倍。2700+分的选手数量非常少,只有大约37人,占所有参赛选手的前0.05%。在实际工作中,这个水平的选手的算法能力远超一般的专业程序员,甚至是顶级科技公司如Google的工程师。”
“o3的评分太强了,尤其是那个类似智商测试的题目,完全要靠现学的推理能力才能实现。另外最近新出的那个超难的数学测试集,也能解决25%的题目(o1只能解决2%)。推理模式真的能到AGI啊。”
来源:小何科技讲堂