摘要:一个仅有15亿参数、训练成本不足8000美元的小模型,在顶级数学竞赛基准上击败了参数量是其数百倍的,近万亿参数的DeepSeek-R1(6710亿参数)。甚至媲美Gemini 2.5 flash和claude Opus 4。
一个仅有15亿参数、训练成本不足8000美元的小模型,在顶级数学竞赛基准上击败了参数量是其数百倍的,近万亿参数的DeepSeek-R1(6710亿参数)。甚至媲美Gemini 2.5 flash和claude Opus 4。
令人意想不到的是,这是新浪微博刚刚发布并开源的VibeThinker-1.5B模型。
这个仅有15亿参数的小家伙,证明了智慧的算法设计,或许比单纯的参数堆砌更具力量。
核心是一种先发散再收敛的智慧
VibeThinker-1.5B的强大,并非源于模型架构的革新,而是其背后一套名为频谱到信号原则(Spectrum-to-Signal Principle, SSP)的训练哲学。
传统的模型训练,尤其是在微调阶段,目标非常直接:让模型在一次尝试中给出正确答案的概率(即Pass@1)最大化。监督微调(SFT)和强化学习(RL)两个阶段,都围绕着这个单一目标进行优化。
SSP原则认为这种做法存在根本性的局限。
它就像一个严厉的老师,只奖励那个唯一正确的标准答案,从而扼杀了学生探索其他可能解法的创造力。这种训练方式,让模型变得思维僵化,过早地收敛到一个狭窄的解题路径上,从而限制了其推理能力的上限。
VibeThinker-1.5B反其道而行之。它将SFT和RL两个阶段的目标彻底解耦,赋予它们截然不同又相辅相成的使命。
第一阶段,监督微调(SFT),被定义为频谱阶段。
它的目标不再是追求单次回答的准确率,而是生成一个丰富多样的、包含各种合理解题思路的解决方案频谱。通俗地说,就是鼓励模型脑洞大开,针对一个问题,想出尽可能多的、看起来都有道理的解法。
这个阶段的评价指标不再是Pass@1,而是Pass@K。这个指标衡量的是,在模型独立生成的K个答案中,只要有一个是正确的,就算通过。高Pass@K意味着模型拥有广阔的思维空间和丰富的解题路径储备,为后续的优化提供了肥沃的土壤。
这就像一个顶级的创意团队在进行头脑风暴,第一步不是评判哪个点子最好,而是鼓励所有人尽可能多地提出各种想法,无论多么天马行空。想法的数量和多样性(频谱),决定了最终能产出伟大创意的上限。
第二阶段,强化学习(RL),被定义为信号阶段。
当模型通过SFT阶段学会了发散思维后,RL阶段的任务就变成了收敛聚焦。它像一个经验丰富的编辑或决策者,从SFT生成的广阔频谱中,识别出最正确、最高效的那个信号,并加以放大。
通过奖励机制,RL引导模型学会在众多可能性中,提高生成最佳答案的概率。由于SFT阶段已经提供了足够丰富的候选方案,RL阶段的优化就变得事半功倍,它不再需要从零开始探索,而是在一个高质量的候选池中进行选择和强化。
SSP原则的精髓在于,它认识到,先优化多样性(Pass@K),再优化准确性(Pass@1),比从头到尾只优化准确性,能达到更高的性能天花板。一个思维开阔、能举一反三的模型,最终找到正确答案的能力,远胜于一个只会走华容道的死板模型。
输出多样性是模型鲁棒性和创造力的核心。
当模型能从多个角度、多种路径思考问题时,它就不容易陷入局部最优解,也更有可能在面对新颖、复杂的问题时,找到突破性的解决方案。SSP框架,正是将这一认知系统性地融入了模型训练的全过程。
模型的训练过程堪称艺术
理论的优雅需要精妙的实践来落地。VibeThinker-1.5B将SSP原则贯彻到训练的每一个细节中,其具体方法分为多样性探索蒸馏和最大熵引导策略优化两个核心步骤。
第一步:用蒸馏法萃取多样性精华
为了在SFT(监督微调)阶段打造出最广阔的解决方案频谱,团队设计了一套巧妙的两阶段多样性探索蒸馏流程。
首先是领域感知多样性探测。
他们没有将所有知识一锅炖,而是认识到不同领域需要不同的多样性思维。例如,在数学领域,他们将其细分为代数、几何、微积分、统计等N个子领域。
然后,他们利用一个能力强大的大语言模型,为每个子领域自动构建专门的测试题集。在SFT的训练过程中,模型每隔一段时间(比如每k步)就会被保存一个检查点(checkpoint)。这些检查点会被带到各个子领域的考场上,用Pass@K指标进行评估。
最终,在每个子领域中,那个Pass@K分数最高的检查点,就被加冕为该领域的多样性专家模型。比如,M*代数 是最擅长用多种方法解决代数问题的模型,而 M*几何 则是几何领域的发散思维冠军。
这个过程,就像是从成千上万的实习生中,为每个部门挑选出最具创新潜力的那一个。
接下来是专家模型融合。
选出了各个领域的专家后,需要将它们的才华集于一身,打造一个全能的、多样性最大化的SFT模型。这里使用了一种名为模型合并(Model Merging)的技术。
简单来说,就是将这些专家模型的参数进行加权平均。公式可以表示为:
权重wi的总和为1,保证了融合后的模型参数规模不变。在VibeThinker-1.5B的实现中,团队采用了最简单的等权重方案(wi = 1/N),意味着每个领域的多样性能力都被平等地注入到最终的SFT模型中。
这个融合了所有专家之长的模型 MSFT Merge,不仅在多样性指标Pass@K上达到了顶尖水平,其单次准确率Pass@1也同样出色。
这说明,追求思维的广度,并不会削弱其深度。
恰恰相反,一个更广阔的认知频谱,似乎反而强化了通往最正确答案的那条路径。这个强大的SFT模型,为下一阶段的RL优化,奠定了无与伦比的坚实基础。
第二步:用熵来引导模型在学习甜点区探索
进入RL(强化学习)信号阶段后,团队面临一个新的问题:如何最高效地利用训练数据?
传统的RLHF(人类反馈强化学习)通常使用静态数据集,这对于一个能力不断进化的模型来说,效率很低。模型已经完全掌握的问题,再反复练习是浪费时间;而远超其当前能力的问题,则会让模型感到挫败,难以学习。
这里,VibeThinker-1.5B引入了最大熵引导策略优化(MaxEnt-Guided Policy Optimization, MGPO)框架。
这个名字听起来复杂,但其核心思想非常符合直觉,源于信息论。它认为,一个问题对模型训练的价值最大化,是在模型对这个问题最不确定的时候。
想象一下一个学生。对于1+1=2,他每次都答对,再练一百遍也学不到新东西。对于黎曼猜想,他完全不懂,再看一百遍也只是徒劳。他学得最快的地方,是那些他感觉自己好像会,但又没完全会,做起来时对时错的题目。
这个时对时错的状态,在信息论中,就是熵最大的状态。
对于一个问题,模型的回答只有正确与不正确两种结果。当模型在多次尝试后,答对的概率pc(q)恰好是50%时,其不确定性达到顶峰,熵最大。这个点,就是模型的学习甜点区(learning sweet spot),或者说关键的学习前沿。
MGPO框架的核心,就是动态地识别出这些让模型最纠结的问题,并引导模型将学习资源优先投入其中。
它通过一个熵偏差正则化的加权方案来实现。这个方案会计算模型当前表现(答对概率pc(q))与理想的最大熵状态(p0 = 0.5)之间的距离(使用KL散度衡量)。
距离越远(即模型对问题要么掌握得太好,要么完全不会),分配的权重就越低;距离越近(模型表现接近50%的摇摆状态),分配的权重就越高。
模型会自动地将注意力集中在那些它最有可能取得突破的模糊地带。
通过这种方式,MGPO确保了每一份计算资源都花在了刀刃上,极大地提升了学习效率,让模型能够以最快的速度,从SFT阶段提供的广阔频谱中,锁定并放大那个最强的信号。
性能表现足以挑战行业共识
VibeThinker-1.5B在一系列涵盖数学、编码和知识领域的权威基准测试中,交出了一份颠覆性的答卷。
评估的考场包括:
数学:MATH-500、极具挑战性的哈佛麻省理工数学竞赛HMMT 2025、美国数学邀请赛AIME 2024和AIME 2025。编码:LiveCodeBench V5和V6,评估通用编程能力。知识:GPQA-Diamond,一个包含生物、物理、化学博士级别问题的研究生水平测试。VibeThinker-1.5B与参数量在30亿以下的同级别选手进行比较。
表格中的数据清晰地展示了VibeThinker-1.5B与其基础模型(Qwen2.5-Math-1.5B)相比,实现了脱胎换骨的进化。
在AIME25上,分数从4.3飙升至74.4;HMMT25从0.6提升到50.4;LiveCodeBench V5更是从0分突破至55.9。
更重要的是,VibeThinker-1.5B不仅超越了同参数级的对手,甚至碾压了更大一些的模型。
它在AIME25上的分数(74.4)是30亿参数SmolLM(36.7)的两倍多。在HMMT25(50.4 vs 26.0)和LiveCodeBench V5(55.9 vs 27.6)上,优势同样巨大。这毫无疑问地确立了它在30亿参数以下级别中的王者地位。
与大型推理模型,甚至是行业巨头的专有模型正面交锋。这些对手的参数规模是VibeThinker-1.5B的10倍到数百倍。
结果令人震惊。
在AIME25这个极具挑战性的数学基准上,15亿参数的VibeThinker-1.5B(74.4分)击败了6710亿参数的DeepSeek R1(70.0分),并且与OpenAI的o3-mini-Medium(74.8分)、MiniMax-M1(74.6分)几乎打平。
在HMMT25上,它的表现(50.4分)同样超越了DeepSeek R1(41.7分)。
这一结果直接撼动了推理能力与参数规模强相关的行业基石。
它雄辩地证明,通过精巧的算法设计和训练策略,一个小规模模型完全有潜力在复杂的逻辑推理任务上,达到甚至超越那些体量庞大数百倍的巨型模型。
在编码任务上,VibeThinker-1.5B与顶级大模型的差距略大一些,这主要归因于其基础模型更侧重于数学数据。
而在GPQA这样的广域知识问答上,差距则更为明显。这表明,小参数模型在存储和处理海量、百科全书式的通用知识方面,可能确实存在固有的物理限制。
为了进一步凸显其在推理领域的专注与强大,VibeThinker-1.5B还与一些顶级通用大模型进行了比较,如Kimi K2、Deepseek V3、GPT-4.1等。
这些模型参数规模动辄数千亿乃至万亿,虽然也经过了数学和编码数据的训练,但其设计目标是通用对话,而非专门的链式思维(CoT)推理。
在数学基准上,它以巨大的优势超过了所有这些万亿参数级别的通用模型。这有力地说明,对于需要深度逻辑推理的任务,专门优化的小而美模型,其效能远非通用大而全模型能比。
成本与可信度是最后的拼图
VibeThinker-1.5B的成就不仅在于性能,更在于其极致的成本效益。
整个后训练过程(包括SFT和RL阶段),在NVIDIA H800 GPU上总共只花费了约3900个GPU小时。按照当时的市场租赁价格,总计算成本不到8000美元。
用不到8000美元的成本,达到了需要花费30万甚至50万美元才能企及的性能水平,成本效益比达到了惊人的30到60倍。
这种成本上的巨大优势,意味着强大的AI推理能力不再是少数巨头的专利。它让更多的中小型公司、研究机构和大学,都有可能参与到前沿AI的开发中来,极大地促进了AI研究的民主化。
同时,在推理部署成本上,15亿参数的模型可以轻松运行在手机、汽车等边缘设备上,其服务成本相较于巨型模型降低了20到70倍,为AI应用的广泛落地铺平了道路。
当然,对于任何一个表现惊艳的模型,都必须回答一个关键问题:数据是否被污染?模型是否只是背题,而非真正学会了解题?
VibeThinker-1.5B团队对此采取了严格的数据去污染措施,通过10-gram匹配等方法,确保训练数据与评估测试集之间不存在语义重叠。
更有力的证据来自时间线。
VibeThinker-1.5B的基础模型发布于2024年9月。而它表现出色的AIME25和HMMT25基准测试,直到2025年才公开发布。这意味着,这些测试题根本不可能出现在其基础模型的训练数据中。
此外,其基础模型在编码任务上得分均为0,而VibeThinker-1.5B通过后训练将分数提升至50分以上。这些从无到有的能力跃升,也强有力地证明了其性能的提升源于创新的训练方法,而非数据泄露。
VibeThinker-1.5B证明了在逻辑推理这一核心认知领域,精巧的算法设计可以超越蛮力的参数堆砌。
参考资料:
来源:算泥社区