摘要:这一系列模型,不仅在数学、代码这些硬核指标上,交出了一份足以让许多顶级闭源模型汗颜的成绩单,更重要的是,它带来了一套全新的打法。用Nous Research自己的话说就是:“Hermes 4不仅是一组模型,更是一套全新的方法论——它证明,透明、可复现、开放的技
8月25日,AI圈炸出了一个重磅模型。
这事儿的主角,不是OpenAI,也不是谷歌,而是一家在圈外名不见经传,但在技术圈里却分量十足的研究机构——Nous Research。
他们悄无声息地,扔出新一代大模型,Hermes 4系列。
这一系列模型,不仅在数学、代码这些硬核指标上,交出了一份足以让许多顶级闭源模型汗颜的成绩单,更重要的是,它带来了一套全新的打法。用Nous Research自己的话说就是:“Hermes 4不仅是一组模型,更是一套全新的方法论——它证明,透明、可复现、开放的技术路径,完全可以与巨头们的封闭系统正面竞争,甚至在某些领域实现超越。”
这话说得相当有底气。那么,这个名不见经传的Nous,究竟是凭什么,敢叫板整个由千亿美金和海量GPU堆砌起来的AI帝国?别急,我们一层一层地把它扒开来看。
AI不仅要会思考,还得懂“闭嘴”
用过大模型的朋友可能都有过这种体验:你问它一个复杂问题,它要么“直来直去”给你一个简单答案,显得有点“笨”;要么就开始“滔滔不绝”,陷入一种无休止的“思考循环”,最后把自己给绕进去,直接爆了上下文窗口。
这就是行业里一个普遍的痛点。AI好像总是在“思考不足”和“思考过度”之间反复横跳。
Hermes 4给出的第一个答案,就叫“混合推理机制”。
听着挺玄乎,说白了就是让AI学会了“收放自如”。当用户需要它深度思考的时候,可以通过一个简单的指令,让模型进入“深度推理”模式。这时候,Hermes 4会在给出最终答案前,先把自己的内心戏、推理过程,用一个特殊的标签(比如...)原原本本地展示给你。这就像一个学霸在做数学题,不仅写了答案,还把详细的解题步骤工工整整地给你列了出来,让你看得明明白白。
如果只是个简单问题,它也能快速给出标准答案,绝不拖泥带水。这种在“深思熟虑”和“高效敏捷”之间无缝切换的能力,让它变得异常实用。
但光会“想”还不够,还得会“停”。Nous团队发现,自家的小模型在推理模式下,有60%的情况会因为“想太多”而直接“干到宕机”,任务中断。这可不行。
于是,他们又设计了一个“长度控制”机制。简单粗暴,就是在第二阶段微调的时候,专门训练模型在推理到3万个token的时候主动“刹车”,告诉它“行了,到这儿就得了”。你还别说,效果出奇地好。在AIME'24、LiveCodeBench这些硬核任务上,这种“想太多”的超长生成率,直接降低了65%到79%,而准确率的损失却微乎其微。
AI研究员Muyu He还发现:“较小的模型(
你看,让AI学会思考不难,难的是让它知道什么时候该闭嘴。Hermes 4做到了。
不靠人力投喂,自己关门“造粮”
如果说混合推理机制是Hermes 4聪明的大脑,那它源源不断的知识又是从哪来的?答案可能让你有些意外:绝大部分,是它自己“造”的。
这就是Hermes 4的第二个杀手锏:一个名为DataForge的合成数据“工厂”。
在AI圈,数据就是粮草,得数据者得天下。但高质量的数据太稀缺、太昂贵了。怎么办?自己造。DataForge干的就是这个活儿。它不是简单地用模板生成些废话文学,而是建立在一个复杂的有向无环图(DAG)系统上。
这是什么意思呢?你可以把它想象成一个超级复杂的“知识蒸馏”流水线。比如,把一篇维基百科文章丢进去,流水线上的第一个节点,可以把它变成一首歌词,第二个节点,再根据歌词生成对应的问答题。整个过程全自动,而且逻辑严谨,保证了数据的多样性和高质量。
靠着这个“数据工厂”,Nous团队生产了大约500万个高质量样本,总计有几百亿的token。其中,用于训练推理能力的样本,平均长度是普通样本的5倍,最长的“思考链”甚至支持到16000个token。
光有工厂还不够,还得有质检员。这个角色由一个叫Atropos的开源强化学习框架扮演。它内置了超过1000个任务特定的“验证器”,就像1000多个火眼金睛的考官,覆盖了从答案格式、指令遵循,到工具使用等方方面面。
模型生成的每一个候选答案,都必须经过这些考官的严格审查,只有通过的,才有资格被纳入最终的训练集。这种玩法,用投资人Tommy Shaughnessy的话说就是:“Hermes 4的训练数据里,有350万条推理样本、160万条非推理样本,全部经过Atropos的严格筛选。这不是静态QA,而是动态‘练兵’。”
这种“自产自销”加“严格质检”的模式,让Nous摆脱了对昂贵人工标注数据的依赖,用一种更聪明、更高效的方式,给模型喂出了高质量的“精神食粮”。
是骡子是马,拉出来遛遛
说了这么多,又是新机制,又是新数据,那Hermes 4的实战能力到底怎么样?毕竟在AI这个圈子,一切都要靠实力说话。
不多说,直接上成绩单。
从这两张图里,信息量可以说是非常大了。
首先看硬实力,尤其是在数学和推理这种最考验模型逻辑能力的领域。405B参数的Hermes 4,在MATH-500这个大学级别的数学基准上拿到了96.3%的惊人高分,在美国数学邀请赛AIME'24上也达到了81.9%。这个成绩,不仅把之前所有的开源模型甩在了身后,甚至已经开始逼近甚至超越某些最顶尖的闭源系统了。这说明,靠着那套独特的训练方法,Hermes 4是真的“学进去了”。
再来看一个更有意思的测试:RefusalBench。这个基准是Nous自己搞的,专门用来测试模型有多大的意愿“拒绝回答”用户的问题。分数越高,说明模型越开放,越愿意配合用户;分数越低,说明它越保守,内置的“安全护栏”越多。
结果呢?Hermes 4得分57.1%,而GPT-4o是17.67%,Claude Sonnet 4是17%。
这个差距,背后其实是一种截然不同的AI哲学。OpenAI和Anthropic们更像一个“AI保姆”,它们会预设很多立场,认为有些问题你不该问,有些事你不该做,于是选择“一刀切”地拒绝。而Nous则认为,模型应该是中性的,它是一个工具,怎么用、用在哪,应该由用户自己决定。
这种“高自由度”自然会引发一些争议,但它也代表了开源精神的核心:把权力和选择,交还给用户。
一场开源世界的“独立宣言”
Hermes 4的发布,早已超出了一个模型本身的意义。它更像是一次开源AI社区对巨头们的“独立宣言”。
AI研究员Rohan Paul评价说:“让推理链既实用又可验证,避免‘无限思考’,是Hermes 4最大的技术突破之一。” 这代表了技术层面的胜利。
投资人Tommy Shaughnessy:“Nous只有几十人,没有千亿级预算,却能用创新方法与巨头抗衡。这是开源精神的胜利。”
Nous官方:“如果开源模型拒绝一切请求,那就毫无意义。Hermes 4不会居高临下地说教,而是真正为用户服务。”
这无疑是在向主流的“内置安全护栏”模式发起了挑战。它认为,透明的机制加上用户的自主控制,远比一个不透明的“黑箱”加上大公司的内部政策,更有利于AI的长远发展和安全。
这与诺奖得主杰弗里·辛顿(Geoffrey Hinton)在马丁讲座(Martin Lecture)说的“开源模型威胁论”怎么恰好相反呢?
信息来源:
来源:算泥社区