首破60分!Eigen-1凭开源模型赢GPT-5,AI科学推理迎拐点

B站影视 日本电影 2025-09-30 22:01 1

摘要:2025年9月刚过,AI圈就炸了个大新闻,Eigen-1多智能体系统在HLE“人类最后考试”的Bio/ChemGold测试集上,Pass@5准确率飙到了61.74%。

2025年9月刚过,AI圈就炸了个大新闻,Eigen-1多智能体系统在HLE“人类最后考试”的Bio/ChemGold测试集上,Pass@5准确率飙到了61.74%。

这可是首次有人把这个指标干过60分!更让人意外的是,它没靠那些藏着掖着的闭源超大模型,全靠开源的DeepSeekV3.1搭的架子。

可能有人还不知道HLE是啥,简单说就是AI的“终极摸底考”。

里面全是数学、自然科学、工程学这些硬领域的题,一共3000道,难度直逼博士级别。

之前谷歌Gemini2.5Pro、OpenAIGPT-5这些业内大佬在上面试过,成绩都一般,Eigen-1这波直接把它们甩了老远。

之前我总觉得闭源模型才是AI的天花板,没想到开源模型靠技术创新能逆袭,这波操作确实打破了不少人的固有印象。

聊完HLE的成绩,就得说说Eigen-1到底靠啥做到的。

它不是靠单一技术堆出来的,而是靠三个“大招”协同发力:Monitor-basedRAG、HSR和QAIR。

先说说第一个,Monitor-basedRAG。

传统的RAG系统就像看视频总卡顿,一要查外部资料就暂停推理,等查完回来,前面的思路都快忘了。

业内管这种损耗叫“工具税”,之前不少模型都栽在这上面。

Eigen-1的这个新机制就聪明多了。

它后台有个“监视器”,一直盯着推理过程。

哪步出现不确定,“查询器”就精准抓几个关键词去搜,不搞漫天撒网那套。

搜到的信息再由“注入器”无缝插进推理里,不打乱节奏,就像聊天时自然补一句背景似的。

我看了团队给的数据,这么一改,token消耗少了一半多,工作流步骤也减了四成,还能保持更高准确率。

有个单倍型计数的例子特典型,就是靠这套机制补上关键信息,最后才算出30个正确答案的。

再说说第二个“大招”HSR,也就是分层解法修复。

之前多智能体解题,总喜欢搞“民主投票”,不管方案好坏都平等对待。

结果就是好点子被一堆一般的想法稀释,最后出不来最优解。

Eigen-1不这么干,它搞了个“锚点—修复”的玩法。

每个候选方案轮流当“主心骨”,其他方案就负责挑错补漏。

具体能修啥呢?比如逻辑漏了就补全,计算错了就修正,方法不好就换掉,表达不清楚就优化。

这感觉就像一群人一起改作业,有人牵头,其他人各司其职,效率高多了。

团队给了个图像识别的例子,要同时认昆虫和数花朵。

一开始选的ResNet模型,算错了部署时间,多亏其他方案帮忙修正,最后才出了精准结果。

这种协作方式比单纯投票靠谱多了,毕竟解题不是选班长,不是人多就对。

最后说说QAIR,质量感知迭代推理。

这招的核心就是不瞎折腾,先看解答质量够不够格。

从逻辑性、答案正确性、解释完整性三个角度打分,够好就停,不够好再接着改。

这就像老师改卷子,好的直接过,差的才细改,不浪费时间。

之前有些模型为了追求准确率,不管答案好不好都反复算,资源浪费得厉害。

Eigen-1这招算是把效率和精准平衡住了,挺聪明的。

搞定了技术细节,再看看Eigen-1除了HLE还有啥本事。

它在SuperGPQA生物学难题(Hard版)和TRQA文献理解上表现也很能打。

本来我以为它可能就偏科HLE,后来发现是个全能选手。

这就有意思了,说明它的技术不是只针对某类题,而是有普适性。

更重要的是,Eigen-1的突破,给开源模型争了口气。

之前总有人觉得开源模型比闭源的差一截,只能做些小任务,搞不了高端科学推理。

现在看来,差的可能不是底子,是方法。

靠好的架构创新,开源模型照样能站上高端赛道。

而且这还能降低门槛,让更多研究者参与进来,不用死磕闭源模型。

团队还做了些深层分析,有两个发现挺有意思。

一个是错误模式,大部分错误不是单纯缺知识或逻辑差,而是没法把知识和推理揉到一起。

另一个是协作平衡,检索任务要多搞点不同思路,推理任务则要早点达成共识。

这些结论不光对Eigen-1有用,对整个AI科学推理领域都有参考价值。

Eigen-1这波突破不只是一个分数,更像给AI辅助科研指了条新路子。

以后不用一门心思盯着闭源大模型,开源生态加上好的技术创新,照样能出成绩。

研究团队说HLE不是AI的最后一个基准,我觉得也是。

等更多人加入开源阵营,说不定还能有更惊喜的突破。

毕竟科学研究靠的就是协作,AI发展也一样,开源就是最好的协作方式之一。

来源:乐娱侃事

相关推荐