摘要:2025年9月刚过,AI圈就炸了个大新闻,Eigen-1多智能体系统在HLE“人类最后考试”的Bio/ChemGold测试集上,Pass@5准确率飙到了61.74%。
2025年9月刚过,AI圈就炸了个大新闻,Eigen-1多智能体系统在HLE“人类最后考试”的Bio/ChemGold测试集上,Pass@5准确率飙到了61.74%。
这可是首次有人把这个指标干过60分!更让人意外的是,它没靠那些藏着掖着的闭源超大模型,全靠开源的DeepSeekV3.1搭的架子。
可能有人还不知道HLE是啥,简单说就是AI的“终极摸底考”。
里面全是数学、自然科学、工程学这些硬领域的题,一共3000道,难度直逼博士级别。
之前谷歌Gemini2.5Pro、OpenAIGPT-5这些业内大佬在上面试过,成绩都一般,Eigen-1这波直接把它们甩了老远。
之前我总觉得闭源模型才是AI的天花板,没想到开源模型靠技术创新能逆袭,这波操作确实打破了不少人的固有印象。
聊完HLE的成绩,就得说说Eigen-1到底靠啥做到的。
它不是靠单一技术堆出来的,而是靠三个“大招”协同发力:Monitor-basedRAG、HSR和QAIR。
先说说第一个,Monitor-basedRAG。
传统的RAG系统就像看视频总卡顿,一要查外部资料就暂停推理,等查完回来,前面的思路都快忘了。
业内管这种损耗叫“工具税”,之前不少模型都栽在这上面。
Eigen-1的这个新机制就聪明多了。
它后台有个“监视器”,一直盯着推理过程。
哪步出现不确定,“查询器”就精准抓几个关键词去搜,不搞漫天撒网那套。
搜到的信息再由“注入器”无缝插进推理里,不打乱节奏,就像聊天时自然补一句背景似的。
我看了团队给的数据,这么一改,token消耗少了一半多,工作流步骤也减了四成,还能保持更高准确率。
有个单倍型计数的例子特典型,就是靠这套机制补上关键信息,最后才算出30个正确答案的。
再说说第二个“大招”HSR,也就是分层解法修复。
之前多智能体解题,总喜欢搞“民主投票”,不管方案好坏都平等对待。
结果就是好点子被一堆一般的想法稀释,最后出不来最优解。
Eigen-1不这么干,它搞了个“锚点—修复”的玩法。
每个候选方案轮流当“主心骨”,其他方案就负责挑错补漏。
具体能修啥呢?比如逻辑漏了就补全,计算错了就修正,方法不好就换掉,表达不清楚就优化。
这感觉就像一群人一起改作业,有人牵头,其他人各司其职,效率高多了。
团队给了个图像识别的例子,要同时认昆虫和数花朵。
一开始选的ResNet模型,算错了部署时间,多亏其他方案帮忙修正,最后才出了精准结果。
这种协作方式比单纯投票靠谱多了,毕竟解题不是选班长,不是人多就对。
最后说说QAIR,质量感知迭代推理。
这招的核心就是不瞎折腾,先看解答质量够不够格。
从逻辑性、答案正确性、解释完整性三个角度打分,够好就停,不够好再接着改。
这就像老师改卷子,好的直接过,差的才细改,不浪费时间。
之前有些模型为了追求准确率,不管答案好不好都反复算,资源浪费得厉害。
Eigen-1这招算是把效率和精准平衡住了,挺聪明的。
搞定了技术细节,再看看Eigen-1除了HLE还有啥本事。
它在SuperGPQA生物学难题(Hard版)和TRQA文献理解上表现也很能打。
本来我以为它可能就偏科HLE,后来发现是个全能选手。
这就有意思了,说明它的技术不是只针对某类题,而是有普适性。
更重要的是,Eigen-1的突破,给开源模型争了口气。
之前总有人觉得开源模型比闭源的差一截,只能做些小任务,搞不了高端科学推理。
现在看来,差的可能不是底子,是方法。
靠好的架构创新,开源模型照样能站上高端赛道。
而且这还能降低门槛,让更多研究者参与进来,不用死磕闭源模型。
团队还做了些深层分析,有两个发现挺有意思。
一个是错误模式,大部分错误不是单纯缺知识或逻辑差,而是没法把知识和推理揉到一起。
另一个是协作平衡,检索任务要多搞点不同思路,推理任务则要早点达成共识。
这些结论不光对Eigen-1有用,对整个AI科学推理领域都有参考价值。
Eigen-1这波突破不只是一个分数,更像给AI辅助科研指了条新路子。
以后不用一门心思盯着闭源大模型,开源生态加上好的技术创新,照样能出成绩。
研究团队说HLE不是AI的最后一个基准,我觉得也是。
等更多人加入开源阵营,说不定还能有更惊喜的突破。
毕竟科学研究靠的就是协作,AI发展也一样,开源就是最好的协作方式之一。
来源:乐娱侃事