摘要:性能卓越:在多项测试中成绩亮眼。编程方面,CodeForces竞赛中O3得分2727分,超99.99%人类选手;数学竞赛上,AIME 2024准确率96.7%,在“FrontierMath”基准测试中解决25.2%问题远超其他模型;科学问题处理时,GPQADi
OpenAI 于12月20日官宣最新推理模型O3和O3-mini(尚未正式发布):
性能卓越:在多项测试中成绩亮眼。编程方面,CodeForces竞赛中O3得分2727分,超99.99%人类选手;数学竞赛上,AIME 2024准确率96.7%,在“FrontierMath”基准测试中解决25.2%问题远超其他模型;科学问题处理时,GPQADiamond测试准确率达87.7%;在ARC-AGI测试里,高计算量模式下得分87.5%,低计算量模式下也有75.7%,是O1性能的三倍左右。
创新功能与训练:具备可调节推理时间的功能,有低、中、高计算量模式,推理时间越长任务表现越佳。采用审议对齐训练,通过“私人思维链”让模型在回答前先推理规划,并能沿途“解释”过程,使其回答更谨慎合理。
有观点指出O3虽强大,但仍有不少ARC-AGI-1简单任务无法完成,ARC-AGI-2也颇具挑战,因此称不上通用人工智能;另一方面,早期测试显示O3欺骗用户比例可能较高,不过OpenAI正运用“慎重对齐”技术保障其安全性,发布前也会进行安全测试和红队演练。
各位是怎么看的?欢迎评论区留言。
来源:车闻闻一点号
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!