Meta联手UCSD发布DeepConf:计算成本暴降85%,99.9%准确率!

B站影视 内地电影 2025-09-01 07:41 1

摘要:他们推出的这项名为“DeepConf”的新技术,几乎是以一种不讲道理的方式,解决了困扰整个行业许久的一个终极难题:如何让 AI 在做高难度推理题时,既能保持极高的准确率,又不会把计算中心的电表烧爆?

在人工智能这个江湖里,每隔一段时间,就会有一次华山论剑,各路高手纷纷亮出自己的独门绝技。

卷模型尺寸和参数或成过去式?Meta AI 联合加州大学圣地亚哥分校(UCSD)的研究团队,悄悄地扔出了一颗重磅炸弹。

他们推出的这项名为“DeepConf”的新技术,几乎是以一种不讲道理的方式,解决了困扰整个行业许久的一个终极难题:如何让 AI 在做高难度推理题时,既能保持极高的准确率,又不会把计算中心的电表烧爆?

听起来是不是有点像既要马儿跑,又要马儿不吃草?但在极具挑战性的 AIME 2025 数学竞赛中,DeepConf 真的做到了。它与开源的 GPT-OSS-120B 模型联手,不仅取得了惊世骇俗的 99.9% 准确率,还顺手把计算资源消耗砍掉了84.7%。

这一刻,整个 AI 圈子都安静了。

它告诉我们,通往更强 AI 的路,或许不只有“大力出奇迹”这一条。

AI "内卷"到头,只能靠堆料?

最近几年,我们见证了大型语言模型的狂飙突进。从 GPT 系列到 Llama,从 Claude 到 Gemini,这些模型在聊天、写作、生成代码方面,已经强大到让人惊叹。但一遇到真正复杂的推理任务,比如解一道烧脑的数学题,它们就常常显得有些力不从心。

推理,这玩意儿是人类智慧的皇冠。它要求 AI 不仅要读懂题,还得一步步、有逻辑地把答案算出来。为了让 AI 学会这门手艺,研究人员们想出了一个简单粗暴但相当有效的办法——“自洽性”,或者用个更形象的词,“并行思维”。

这是什么意思呢?说白了就是“题海战术”加“人海战术”。对于同一道题,让模型生成成百上千种不同的解题思路,然后大家一起投票,哪个答案出现的次数最多,就选哪个。

听起来很美好,但问题也随之而来。正如 Meta AI 和 UCSD 的研究人员在论文里指出的:“这种方法往往导致准确性的边际效益递减和高昂的计算开销。”

这套“大力出奇迹”的玩法,至少有几个让人头疼的地方:

首先,效益递减得厉害。你以为找来的“分身”越多,答案就越准?想多了。当解题路径多到一定程度后,准确率的提升就跟挤牙膏一样,甚至还会因为一些低质量的“猪队友”稀释了投票结果,导致准确率不升反降。

其次,实在是太烧钱了。为了把一个模型的准确率提那么一两个点,可能需要为每个问题额外生成几百个解题过程,消耗上亿个令牌。比如,用 Qwen3-8B 模型在 AIME 2025 上,想把准确率从 68% 提到 82%,就得为每个问题多算 511 条路,烧掉整整 1 亿个额外的令牌。这哪里是做推理,分明是在烧钱。

再者,这种投票机制很傻很天真。它默认所有解题路径都是平等的,完全不管谁是学霸谁是学渣。结果就是,一堆错误的思路很可能因为数量优势,把正确的答案给排挤掉了。

最后,它还特别没效率。你必须等所有“分身”都把完整的卷子答完,才能开始唱票。中间就算发现某个“分身”已经开始胡说八道了,也没办法让它提前交卷,只能眼睁睁地看着宝贵的计算资源被浪费掉。

就是在这种行业集体陷入“不堆算力就不会玩”的困境时,DeepConf 横空出世,带来了一股清流。

不再"大力出奇迹",AI 学会了"察言观色"

DeepConf 的核心思想,说出来你可能会觉得异常简单,甚至有点理所当然:AI 在解题时,我们能不能看看它的“表情”?如果它自己都对某个步骤犹豫不决、信心不足,那这条路很可能就是错的,咱们就别往下走了。

没错,DeepConf 就是要让 AI 学会“察言观色”,只不过观察的对象是它自己。它不再像过去那样,傻乎乎地生成一大堆路径然后无脑投票,而是在生成过程中,就通过模型自身的“置信度”信号,智能地筛选出那些最靠谱的推理路径。

这套“察言观色”的本事,可不是简单地看个总分,而是从全局到局部,层层递进的精细化把控。过去的方法只会看整个解题过程的平均分,这很可能会忽略掉中间某个关键步骤的重大失误。而 DeepConf 设计了五种全新的“探针”,来实时监控 AI 的“心理状态”:

令牌置信度 (Token Confidence):检查 AI 写下的每一个字,看它有多确定。

组置信度 (Group Confidence):把一小段话(比如 2048 个令牌)圈起来看,避免因为一两个字的波动就误判,让信号更平滑、更局部。

尾部置信度 (Tail Confidence):重点关注最后的结论部分,因为答案通常都在这里,这里要是没信心,那基本就完蛋了。

最低组置信度 (Lowest Group Confidence):专门去找到整个解题过程中,AI 最没底气、最“结巴”的那一段,这往往就是推理崩溃的“案发现场”。

底部百分位置信度 (Bottom Percentile Confidence):和上面类似,但更狠,直接揪出最差的那一小撮,因为它们最能预示最终的错误。

有了这些探针,DeepConf 就能像个经验丰富的老师一样,在两种模式下灵活地指导 AI “学生”了。

第一种是“离线模式”,或者叫“考后复盘”。等 AI 把所有卷子都答完,DeepConf 再来当阅卷老师。它会给每份卷子打个置信度分,然后要么只看分数最高的那几份(比如前 η%),要么就搞个加权投票,信心越足的卷子,权重越高。

第二种是“在线模式”,这才是 DeepConf 最具革命性的地方,可以叫“随堂监考”。AI 在这边写,DeepConf 就在旁边盯着。一旦发现 AI 在某个步骤上置信度低于设定的门槛,立刻喊停:“同学,你这条路走不通,别浪费时间了,换条路试试!” 这种“提前终止”的机制,就像是给狂奔的计算资源踩了一脚急刹车,在保证甚至提升最终答案准确性的同时,极大地节省了算力。

这种实时监控、动态调整的智能推理方式,让 AI 第一次真正摆脱了用算力换精度的“肌肉记忆”。

99.9%的准确率,它几乎成了"神"

DeepConf 的效果到底有多神?研究团队在一系列堪称“地狱难度”的推理基准上,对它进行了严格的考验,包括 AIME 2024/2025、HMMT 2025 等顶级数学竞赛题。

我们先说说 AIME(美国数学邀请赛)是个什么概念。这基本是为那些数学天才高中生准备的竞赛,难度评级在 4 到 6 之间,每一道题都足以让普通人怀疑人生。因此,它也成了检验 AI 推理能力上限的黄金标准。

就在 AIME 2025 这个考场上,DeepConf 与 GPT-OSS-120B 模型的组合,交出了一份近乎满分的答卷——99.9% 的准确率,这几乎已经达到了人类顶尖选手的水平。作为对比,传统的“人海战术”(cons@512)准确率是 97.0%,而让模型单枪匹马地做(pass@1),准确率只有 91.8%。

更让人目瞪口呆的是,在取得如此辉煌战绩的同时,它生成的总令牌数还减少了 84.7%。这意味着,它不仅考得最好,交卷还最早,顺便还给考场省了一大笔电费。那个曾经看似不可调和的“准确性 vs 效率”的矛盾,在 DeepConf 面前,居然就这么被化解了。

为了证明这不是一次偶然,研究团队还在多个模型和数据集上进行了“交叉火力测试”。

表格里的数据已经说明了一切。无论是在 8B 的小模型上,还是在 120B 的巨无霸上,DeepConf 的表现都稳定地碾压了传统方法。准确率提升了 5 到 10 个百分点,同时还节省了 43% 到 85% 的计算资源。

50行代码,撬动万亿产业

看到这里,你可能会觉得,这么牛的技术,集成起来肯定特别复杂吧?

恰恰相反。DeepConf 最令人着迷的特点之一,就是它的简单和优雅。你不需要改变模型的底层架构,不需要漫长的重新训练,甚至不需要复杂的参数调整。想把它集成到现有的推理框架(比如流行的 vLLM)里,大概只需要更改 50 行代码。

只需要修改一下 logprobs 处理器,让它能跟踪置信度;再加一个提前停止的检查机制;最后开放一个 API 接口让用户能自己设置置信度阈值。就这么几步,就能让你的 AI 系统脱胎换骨。这种“即插即用”的特性,意味着它可以与任何能提供令牌概率输出的语言模型无缝衔接,无论是开源的还是商业的。

长期以来,高昂的推理成本一直是限制 AI 应用大规模落地的一大瓶颈。而 DeepConf 的出现,直接打在了这个痛点上。通过节省 43-85% 的计算资源,它能极大地降低 AI 应用的运营成本,让过去许多因为算力太贵而无法实现的想法成为可能。它的在线模式还能显著降低延迟,提升用户体验。

更重要的是,DeepConf 为整个开源 AI 生态注入了强大的活力。它证明了,开源模型加上聪明的算法策略,完全有能力在性能上挑战最顶尖的闭源模型。这无疑会鼓励更多的开发者和企业拥抱开源,共同推动技术的进步。

这次 Meta AI 和 UCSD 的合作,也为我们展示了学术界和工业界结合的巨大威力。前沿的理论研究与真实的产业需求碰撞,最终孕育出了 DeepConf 这样兼具理论深度和实用价值的创新成果。

DeepConf 的发布,可能标志着 AI 推理“堆料时代”的终结,和一个“效率为王”新纪元的开启。

参考资料:

来源:云阳好先生做实事

相关推荐