Open AI放出03模型出起手博士水平!技术奇点已出现!

B站影视 2024-12-21 13:51 2

摘要:性能卓越:在多项测试中成绩亮眼。编程方面,CodeForces竞赛中O3得分2727分,超99.99%人类选手;数学竞赛上,AIME 2024准确率96.7%,在“FrontierMath”基准测试中解决25.2%问题远超其他模型;科学问题处理时,GPQADi

OpenAI 于12月20日官宣最新推理模型O3和O3-mini(尚未正式发布):

性能卓越:在多项测试中成绩亮眼。编程方面,CodeForces竞赛中O3得分2727分,超99.99%人类选手;数学竞赛上,AIME 2024准确率96.7%,在“FrontierMath”基准测试中解决25.2%问题远超其他模型;科学问题处理时,GPQADiamond测试准确率达87.7%;在ARC-AGI测试里,高计算量模式下得分87.5%,低计算量模式下也有75.7%,是O1性能的三倍左右。

创新功能与训练:具备可调节推理时间的功能,有低、中、高计算量模式,推理时间越长任务表现越佳。采用审议对齐训练,通过“私人思维链”让模型在回答前先推理规划,并能沿途“解释”过程,使其回答更谨慎合理。

有观点指出O3虽强大,但仍有不少ARC-AGI-1简单任务无法完成,ARC-AGI-2也颇具挑战,因此称不上通用人工智能;另一方面,早期测试显示O3欺骗用户比例可能较高,不过OpenAI正运用“慎重对齐”技术保障其安全性,发布前也会进行安全测试和红队演练。

各位是怎么看的?欢迎评论区留言。

来源:车闻闻一点号

相关推荐