摘要:近期,AI发展似乎进入了“第二个扩展法则时代(Second era of Scaling Laws)”,一些分析师指出,改进AI模型的既定方法正在呈现出收益递减的趋势,目前,一种新的、有前景的方法是“测试时扩展( test-time scaling)”,这是O
AI扩展法则进入第二代,当然,成本也是如此。
近期,AI发展似乎进入了“第二个扩展法则时代(Second era of Scaling Laws)”,一些分析师指出,改进AI模型的既定方法正在呈现出收益递减的趋势,目前,一种新的、有前景的方法是“测试时扩展( test-time scaling)”,这是OpenAI的o3模型采用的方法,也是o3表现如此出众的原因。
需要注意的是,尽管o3模型让人们重新相信AI扩展法则的进展,但也并非十全十美:o3使用了前所未见的计算量,这意味着每个答案的成本更高了,也意味着o3无法成为人们的日常使用工具。
具体来说,“测试时扩展”意味着OpenAI在ChatGPT的推理阶段使用了更多的计算资源——在用户按下生成按钮后到AI给出答案之间的那段时间,OpenAI可能是在使用更多的计算芯片来回答用户的问题,也可能是在使用更强大的推理芯片,甚至可能是更长时间地运行这些芯片,毕竟,在某些情况下,o3在10到15分钟后才给出答案。
此外,Anthropic联合创始人Jack Clark和另一些分析师指出,o3在ARC-AGI基准测试中的出色表现标志着AI模型的进步,但是,通过这一测试并不意味着AI模型已经达到了通用人工智能(AGI),毕竟,o3在一些非常简单的任务上仍然失败了,而这些任务人类可以轻松完成——显然,o3和“测试时扩展”仍未解决大语言模型的幻觉问题。
AI在2025年的进步将比2024年更快,o3就是证据Clark在周一的博客中表示,o3模型表明,基于目前已有强大基础模型,在推理时让大语言模型“测试时扩展”,能够带来巨大的回报。Clark预计,接下来最有可能发生的事情是,强化学习(RL)和底层基础模型将同时得到扩展,这将带来更加戏剧性的性能提升。
“这是一个大新闻,因为它表明,相较于2024年,2025年AI的进展应该会进一步加速。”
Clark补充表示,最近有很多奇怪的报道,说“扩展已经遇到瓶颈”,对此,Clark反驳称:
“从狭义上讲,这是对的,因为较大的模型在应对挑战性基准时,获得的得分提升比其前代模型要小,但从更广义上讲,这种说法是错误的,因为o3背后的技术意味着扩展仍在继续……到2025年,我们将看到现有方法(大模型扩展)和新方法(基于RL的“测试时扩展”等)的结合。”
Clark还补充道,明年,AI界将结合“测试时扩展”和传统的预训练扩展方法,进一步挖掘AI模型的潜力。
表现出众的o3许多人将OpenAI发布的o3模型视为AI扩展进程没有“夭折”的证明——o3在基准测试中表现出色,在一项名为ARC-AGI的通用能力测试中,它的得分远远超过所有其他模型,某次尝试中得分甚至达到了88%,而o1的最好表现仅为32%。并且,o3在一项困难的数学测试中达到了25%的得分,没有任何其他AI模型的得分超过2%。
o系列模型的共同创造者Noam Brown在上周五表示,OpenAI在宣布o1模型后的仅仅三个月就发布了o3模型,AI性能的进步速度令人印象深刻:
“我们有充分的理由相信,这一发展轨迹将继续下去。”
价格昂贵的o3尽管o3模型让人们重新相信AI扩展法则的进展,但也并非十全十美:o3使用了前所未见的计算量,这意味着每个答案的成本更高了。
Clark在博客中写道:
“或许唯一需要注意的点是,o3之所以表现得更好,部分原因在于它在推理时的运行成本更高——能够利用“测试时扩展”意味着在某些问题上,你可以通过增加计算资源得到更好的答案。这很有意思,因为它使得运行AI系统的成本变得更加难以预测——之前,你只需通过查看模型本身以及生成某个输出的成本,就能估算出运行生成模型的费用。”
再一次回到这张图,除了o3在纵坐标上获得的极高得分,o3在横坐标上也一骑绝尘——o3的高得分版本在每个任务上使用了超过1000美元的计算资源,而o1在每个任务上仅仅使用了约5美元的计算资源,o1-mini在每个任务上只用了几美分。
ARC-AGI基准测试的创造者Francois Chollet在博客中写道:
“OpenAI为了生成88%的得分,使用了比o3高效版本多出约170倍的计算资源,而高效版本的得分仅比高得分版本低12%。”
Chollet继续补充道:
“o3是一个能够适应之前从未遇到的任务的系统,可以说在ARC-AGI领域的表现已经接近了人类的水平,当然,这种通用性的代价很高,且目前还不具备经济效益。”
不过,现在讨论具体定价还为时尚早了,毕竟,AI模型的价格在过去一年中大幅下跌,OpenAI也尚未宣布o3的实际费用。更值得探究的是,o3高昂计算价格显示出,突破当前领先AI模型的性能门槛,到底需要多大的计算量。
仍有局限的o3虽然o3在各类测试中表现出色,但它确实不是十全十美的。
分析师指出,o3或其后继模型不会成为像GPT-4或谷歌搜索这样的“日常使用工具”,因为这些模型使用了过多的计算资源,无法回答日常的小问题,比如“克里夫兰布朗队怎么才能有机会进入2024年季后赛”。
是的,使用了“扩展测试时计算”的AI模型可能仅适用于更宏观的问题,比如“克里夫兰布朗队如何在2027年成为超级碗冠军队”。但是,只有当你是克里夫兰布朗队的总经理时,使用这些工具来做出重大决策,可能才值得你付出如此高昂的计算成本。
正如沃顿商学院教授Ethan Mollick在指出的那样,只有财力雄厚的机构才有可能负担得起o3,至少在初期是这样。
目前,OpenAI发布了一个200美元的订阅层级,供用户使用高计算版本的o1,但根据报道,OpenAI最近还在考虑推出价格为2000美元的订阅层级——看到o3使用的计算资源后,可以理解为什么OpenAI会如此考虑了。
此外,虽然o3在ARC-AGI基准测试中的出色表现标志着AI模型的进步,但是,通过这一测试并不意味着AI模型已经达到了通用人工智能(AGI),毕竟,o3在一些非常简单的任务上仍然失败了,而这些任务人类可以轻松完成——显然,o3和“测试时扩展”仍未解决大语言模型的幻觉问题。
来源:华尔街见闻一点号