摘要:虽然圣诞12日最后一天,o3刷新了ARC-AGI测试,但离AGI依然前途渺茫。而且就在最近,外媒还曝出GPT-5不达预期,还因训练数据问题多次踩坑。对手已经纷纷赶上,OpenAI的前路不容乐观。
【新智元导读】 虽然圣诞12日最后一天,o3刷新了ARC-AGI测试,但离AGI依然前途渺茫。而且就在最近,外媒还曝出GPT-5不达预期,还因训练数据问题多次踩坑。对手已经纷纷赶上,OpenAI的前路不容乐观。
OpenAI轰轰烈烈搞出一场12天圣诞特别活动,结果期间发布最轰动成果的,居然是谷歌。
谷歌一发发密集的核弹,让OpenAI分成12天的挤牙膏黯然失色,毫无还手之力。
原生多模态Gemini 2.0 Flash ,demo惊艳的Project Astra,组团出道的AI智能体, 效果吊打Sora掀起全网狂潮的Veo 2 ……显得OpenAI的圣诞活动仿佛是个笑话。
到了最后一天,OpenAI好歹支棱起来,放出个大的。
奥特曼亲自上场,在直播中揭秘OpenAI下一代推理模型o3,令人印象最为深刻的,就是它在难度极大的ARC-AGI基准上遥遥领先。
OpenAI模型在ARC-AGI得分的历年表现
「从o1到o3要3个月。从o1 Pro到o3只要1个月。」
这个对比,算是让前段时间甚嚣尘上的「Scaling Law撞墙论」打脸了,OpenAI总算扬眉吐气了一回。
目前 ,o3只对安全研究员开放,而大家最关心的是:我们的GPT-5呢?
巧了不是,就在直播几小时后,OpenAI直接被外媒踢爆负面消息:GPT-5问题不断,遥遥无期!
华尔街日报发文曝料:OpenAI的新一代AI模型GPT-5的内部开发项目「Orion」问题重重
文章标题明晃晃地指出「项目延期」、「成本高昂」,直接把奥特曼惹急了!
他暗暗讽刺道:o3发布没多久,他们就说AI的下一个伟大飞跃进展缓慢,这合理吗?
虽然o3的性能耀眼,但GPT-5究竟何时发布,目前还是未知数。
要知道,自从2023年3月发布的GPT-4到现在,已经超过18个月了,市场和投资人的耐心,也快被磨没了。
风头机构Menlo Ventures的数据显示,今年OpenAI在企业AI领域的市场份额,从50%暴降至34%,但老对手Anthropic的市场份额却翻了一番,从12%涨至24%。
甚至今天还有消息曝出:因为OpenAI模型的性价比太低,微软正计划将非OpenAI模型集成到365 Copilot。
谷歌、Anthropic的步步紧逼,微软的暗戳戳「背刺」,OpenAI的境遇,显然已不是当初「赢者通吃」的一家独大。
OpenAI在GPT-5的训练上,问题不断
根据华尔街日报的报道,微软原本计划在年中看到GPT-5, 但奥特曼在11月时表示,今年反正是不会发布了。
当然,这并不是说OpenAI什么都没做。
据知情人士透露,OpenAI至少进行了2次大规模的训练,每次都需要数月时间处理和分析海量数据。
但每次训练都会有新的问题出现,同时模型的表现也无法达到研究人员的预期——其性能的提升不足以证明维持新模型高昂的运行成本是值得的。
不仅如此,一次为期6个月的训练成本也非常之高——仅计算部分就需要约5亿美元。
大语言模型训练日
OpenAI的ChatGPT模型参数规模巨大, 在测试持续的时期内,模型可以被输入数万亿个token。
ChatGPT系列不同参数规模比较
一次大规模训练可能需要在数据中心耗时数月,使用的顶级计算芯片达到数万块。
每次训练,研究人员需要在电脑前持续工作数周甚至数月,努力将世界上大部分知识输入到AI系统中。
奥特曼曾表示训练GPT-4的成本超过1亿美元。未来的AI模型训练成本预计将突破10亿美元。
训练失败令人痛心且代价高昂, 就像航天发射任务中火箭在升空后突然爆炸一样。
为此,研究人员尝试通过开展小规模实验来降低这种失败的风险——在正式训练前进行预先测试(trial run)。
但没想到的是,GPT-5在预先测试中就已经暴露出了大量问题。
2023年中旬,OpenAI启动代号为Arrakis的项目,作为Orion新设计方案的预先测试。
然而,这个过程的进展非常缓慢——也就是说,更大规模的训练将需要极其长的时间,而成本也将会达到天文数字。
项目结果表明,开发GPT-5的道路将远比预期更加曲折。
OpenAI的研究人员决定对Orion进行技术优化,并着手去解决多样化和高质量训练数据不足的问题。
从零开始构建数据
为了让Orion更智能,OpenAI需要扩大模型的规模,而这就需要更多的训练数据。
但众所周知,目前可用的优质数据已经捉襟见肘。
对此,OpenAI的解决方案是:从头创建数据集。
他们正在组建团队为Orion提供学习材料,比如聘请软件工程师编写全新的软件代码,聘请数学家设计数学问题。这些专家还会向系统详细解释他们的解题思路和工作过程。
许多研究人员认为,程序代码作为一种严谨的计算机语言,能够帮助LLM学会处理它们此前从未遇到过的问题。
人才流失
大模型训练充满挑战。而公司内部的剧烈动荡和竞争对手持续以数百万美元年薪挖角其顶尖研究人员,OpenAI的大模型训练变得更加复杂。 去年,奥特曼突然被OpenAI董事会解职,这一事件让许多研究人员对公司的未来产生疑虑。不过奥特曼很快被重新任命为首席执行官,并随即着手改革OpenAI的治理架构。 仅在今年一年,就有超过二十多名核心高管、研究人员和资深员工离开了OpenAI,包括联合创始人兼首席科学家Ilya Sutskever和首席技术官Mira Murati。 在最近的一次人事变动中,著名研究员Alec Radford也宣布离职,他在公司服务近八年, 是多篇重要科研论文的主要作者。重启Orion项目
截至2024年初,OpenAI的高管们开始感受到越来越大的压力。 GPT-4推出已满一年,而竞争对手们正在快速追赶。 Anthropic公司推出的新一代大模型在业内广受好评,许多专家认为其性能已经超越了GPT-4。 在2024年第二季度,谷歌又推出了智能笔记应用NotebookLM,这款AI辅助写作工具迅速成为年度最受欢迎的人工智能应用。再次踩坑
2024年初,OpenAI准备借助改进后的数据再次启动Orion项目。研究团队在第一季度开展了数次小规模模型训练,以积累经验并建立信心。 到5月,OpenAI的研究人员认为时机成熟,决定再次尝试Orion的大规模模型训练,预计整个过程将持续到11月。 然而,训练开始后,研究人员发现了数据集存在的问题:数据的多样性远低于预期,这可能会严重制约Orion的学习能力。 这个问题在小规模测试中并未显现,直到大规模训练启动后才暴露出来。考虑到已投入的时间和资金成本过于巨大,OpenAI已无法从头开始。 为此,研究团队不得不在训练过程中紧急寻找更多样化的数据输入模型。这种补救策略的效果目前仍未可知。数据正在耗尽
Orion项目遇到的这些问题向OpenAI内部传递出一个信号:过去推动公司取得成功的「规模至上」策略可能已经走到尽头。 不只是OpenAI在担忧发展遇到瓶颈。整个AI行业都在激烈讨论一个问题:人工智能的技术进步是否已开始进入平台期。 OpenAI前首席科学家Ilya Sutskever最近在NeurIPS 2024上明确表示,依靠海量数据推动AI发展的时代已经终结。 「由于我们只有一个互联网,数据增长已经到头了。数据就像AI领域的化石能源一样,即将枯竭。」 而这种珍贵的「数字燃料」正在日渐枯竭。全新策略:增加推理时间
在Orion项目的研发过程中,OpenAI研究人员发现了提升大语言模型智能的新途径:强化推理能力。 研究人员表示,通过延长模型在推理时的「思考」时间,可以使其解决一些没有训练过的难题。 从技术实现角度来看,OpenAI o1采用多答案生成机制,即对每个问题生成多个候选答案,并通过分析筛选出最优解。 由此,模型便可以处理更复杂的任务,如制定商业计划或设计填字游戏,同时提供详细的推理过程说明——这种机制使模型能够从每次回答中持续学习优化。 不过,苹果的研究员在论文中对此提出了质疑,认为包括o1在内的推理模型很可能只是在复现训练数据中的模式,而非真正具备解决新问题的能力。o3屠榜基准测试,但距离AGI有多远?
随着o3的「发布」,模型也在多项基准测试中,相比o1 pro取得了明显的提升, 而这才过了1个月。还不是AGI
在ARC-AGI「公开评估」(Public Eval)中,有大约9%的任务,即便o3加大计算量也无法解决。但对于人类来说却十分简单。 擦擦眼睛,试试能否打败目前最强的o3模型。 在尝试前,请注意:在下面这个例子中,箭头前的图片(即上方图片)表示输入,箭头后的图片(下方的图片)表示输出,灰色部分表示数据集中的例子,绿色部分为o3的两次错误尝试,最后一部分为答案。 在第一个例子中,o3先是给出了一个错到离谱的答案,然后在第二次输出中生成了一大片黑色像素…… 这似乎是目前为止最差的一次结果,而且很难解释为什会这样。GPT-5将带来「重大飞跃」?
在10月, 投资者给予OpenAI的1570亿美元估值,很大程度上基于奥特曼预测GPT-5将在各类学科和任务上实现「重大飞跃」。 目前并没有固定的标准,来判断一个模型是否足够智能到可以被称为GPT-5。 普遍的看法是GPT-5能够解锁新的科学发现,同时能完成日常任务(如门诊预约或订机票)。 研究人员希望它犯更少的错误,或至少能在犯错时承认自己对答案也有所怀疑,即减少所谓的「AI幻觉」。 一位前OpenAI高管表示,如果说GPT-4的表现像个聪明的高中生,那么未来的GPT-5在某些任务上将相当于拥有博士学位水平。 今年早些时候,奥特曼在斯坦福大学的一次演讲中告诉学生,OpenAI可以「以高度的科学确定性」说,GPT-5将比当前模型更加智能。 公司高管们主要基于经验判断和技术评估,或者如许多技术专家所说的「整体表现」,来决定模型是否达到了GPT-5的水平。 但是,到目前为止,这种「整体表现」并不理想。来源:东窗史谈一点号