首破60分！Eigen-1凭开源模型赢GPT-5，AI科学推理迎拐点

摘要：2025年9月刚过，AI圈就炸了个大新闻，Eigen-1多智能体系统在HLE“人类最后考试”的Bio/ChemGold测试集上，Pass@5准确率飙到了61.74%。

2025年9月刚过，AI圈就炸了个大新闻，Eigen-1多智能体系统在HLE“人类最后考试”的Bio/ChemGold测试集上，Pass@5准确率飙到了61.74%。

这可是首次有人把这个指标干过60分！更让人意外的是，它没靠那些藏着掖着的闭源超大模型，全靠开源的DeepSeekV3.1搭的架子。

可能有人还不知道HLE是啥，简单说就是AI的“终极摸底考”。

里面全是数学、自然科学、工程学这些硬领域的题，一共3000道，难度直逼博士级别。

之前谷歌Gemini2.5Pro、OpenAIGPT-5这些业内大佬在上面试过，成绩都一般，Eigen-1这波直接把它们甩了老远。

之前我总觉得闭源模型才是AI的天花板，没想到开源模型靠技术创新能逆袭，这波操作确实打破了不少人的固有印象。

聊完HLE的成绩，就得说说Eigen-1到底靠啥做到的。

它不是靠单一技术堆出来的，而是靠三个“大招”协同发力：Monitor-basedRAG、HSR和QAIR。

先说说第一个，Monitor-basedRAG。

传统的RAG系统就像看视频总卡顿，一要查外部资料就暂停推理，等查完回来，前面的思路都快忘了。

业内管这种损耗叫“工具税”，之前不少模型都栽在这上面。

Eigen-1的这个新机制就聪明多了。

它后台有个“监视器”，一直盯着推理过程。

哪步出现不确定，“查询器”就精准抓几个关键词去搜，不搞漫天撒网那套。

搜到的信息再由“注入器”无缝插进推理里，不打乱节奏，就像聊天时自然补一句背景似的。

我看了团队给的数据，这么一改，token消耗少了一半多，工作流步骤也减了四成，还能保持更高准确率。

有个单倍型计数的例子特典型，就是靠这套机制补上关键信息，最后才算出30个正确答案的。

再说说第二个“大招”HSR，也就是分层解法修复。

之前多智能体解题，总喜欢搞“民主投票”，不管方案好坏都平等对待。

结果就是好点子被一堆一般的想法稀释，最后出不来最优解。

Eigen-1不这么干，它搞了个“锚点—修复”的玩法。

每个候选方案轮流当“主心骨”，其他方案就负责挑错补漏。

具体能修啥呢？比如逻辑漏了就补全，计算错了就修正，方法不好就换掉，表达不清楚就优化。

这感觉就像一群人一起改作业，有人牵头，其他人各司其职，效率高多了。

团队给了个图像识别的例子，要同时认昆虫和数花朵。

一开始选的ResNet模型，算错了部署时间，多亏其他方案帮忙修正，最后才出了精准结果。

这种协作方式比单纯投票靠谱多了，毕竟解题不是选班长，不是人多就对。

最后说说QAIR，质量感知迭代推理。

这招的核心就是不瞎折腾，先看解答质量够不够格。

从逻辑性、答案正确性、解释完整性三个角度打分，够好就停，不够好再接着改。

这就像老师改卷子，好的直接过，差的才细改，不浪费时间。

之前有些模型为了追求准确率，不管答案好不好都反复算，资源浪费得厉害。

Eigen-1这招算是把效率和精准平衡住了，挺聪明的。

搞定了技术细节，再看看Eigen-1除了HLE还有啥本事。

它在SuperGPQA生物学难题（Hard版）和TRQA文献理解上表现也很能打。

本来我以为它可能就偏科HLE，后来发现是个全能选手。

这就有意思了，说明它的技术不是只针对某类题，而是有普适性。

更重要的是，Eigen-1的突破，给开源模型争了口气。

之前总有人觉得开源模型比闭源的差一截，只能做些小任务，搞不了高端科学推理。

现在看来，差的可能不是底子，是方法。

靠好的架构创新，开源模型照样能站上高端赛道。

而且这还能降低门槛，让更多研究者参与进来，不用死磕闭源模型。

团队还做了些深层分析，有两个发现挺有意思。

一个是错误模式，大部分错误不是单纯缺知识或逻辑差，而是没法把知识和推理揉到一起。

另一个是协作平衡，检索任务要多搞点不同思路，推理任务则要早点达成共识。

这些结论不光对Eigen-1有用，对整个AI科学推理领域都有参考价值。

Eigen-1这波突破不只是一个分数，更像给AI辅助科研指了条新路子。

以后不用一门心思盯着闭源大模型，开源生态加上好的技术创新，照样能出成绩。

研究团队说HLE不是AI的最后一个基准，我觉得也是。

等更多人加入开源阵营，说不定还能有更惊喜的突破。

毕竟科学研究靠的就是协作，AI发展也一样，开源就是最好的协作方式之一。

来源：乐娱侃事

标签：模型科学推理开源闭源

本文地址：http://news.43b.com.cn/a/1463700.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐