不依赖闭源模型!Eigen-1登顶HLE,科学AI新范式来了

B站影视 韩国电影 2025-09-30 11:47 1

摘要:2025年9月,有个大事在AI圈炸了,耶鲁、上海交大、牛津这些团队联合搞的Eigen-1,在HLE“人类最后考试”的Bio/ChemGold测试里,Pass@5第一次超过了60分。

2025年9月,有个大事在AI圈炸了,耶鲁、上海交大、牛津这些团队联合搞的Eigen-1,在HLE“人类最后考试”的Bio/ChemGold测试里,Pass@5第一次超过了60分。

更牛的是,它没靠那些闭源的超大模型,用的是开源的DeepSeekV3.1,比GPT-5、Grok4这些名气大的模型表现都好不少。

可能有人没听过HLE,这考试可不是随便考考的。

它是CenterforAISafety和ScaleAI一起弄的,里面全是博士级别的难题,覆盖数学、自然科学、工程学好多领域,总共3000道题,被当成AI推理能力的终极考验。

而Bio/ChemGold是里面的“黄金子集”,149道题全经过领域专家审核,没歧义也没错题,所以能在这上面破60分,含金量真的高。

Eigen-1能成,核心靠三个技术创新。

先说说Monitor-basedRAG,也就是隐式检索增强。

原来的RAG系统用工具的时候特麻烦,跟看视频老暂停似的,一需要知识就中断推理,还得重新整合上下文,研究团队管这叫“工具税”。

Eigen-1这个就不一样了,它有个“隐形助手”Monitor,默默盯着推理过程,发现不确定的地方就触发检索。

而且Querier会精准抓关键词,不瞎搜,Injector还能把找到的知识无缝掺进推理里,不生硬。

我之前看有些AI用传统RAG,光中断浪费的时间就不少,Eigen-1这个不仅没了“工具税”,token消耗还少了一半多,工作步骤也少了快一半,这波优化确实到位。

再看HSR,分层解法修复。

原来多智能体系统搞“民主投票”,所有方案一视同仁,好的容易被差的拉低。

Eigen-1不这么干,它让一个方案当“锚点”,其他的当参考,专门从逻辑、数值、方法、表达四个方面补漏洞。

这就跟咱们干活儿似的,找个主力牵头,其他人帮忙挑错改问题,比瞎投票靠谱多了。

比如有个昆虫识别加花朵计数的任务,锚点方案选了ResNet,但算错了部署时间,参考方案一修正,误差立马降下来了,效果特别直观。

还有QAIR,质量感知迭代推理。

它会先看方案的质量,从逻辑性、正确性、完整性三个角度打分,好的就早点停,不好的再接着改,不浪费算力。

我觉得这个设计特别聪明,之前有些AI不管方案好不好,都强制跑好几轮,纯属白耗资源。

Eigen-1这个“看菜下碟”的思路,既保证了准度,又省了力气,挺会过日子的。

光说技术可能有点干,咱们看看实际成绩。

Eigen-1不光在HLEBio/ChemGold厉害,其他科学测试也不含糊。

比如SuperGPQA的生物学难题,Pass@5快80%了;TRQA文献理解测试,Pass@5也快80%了,比同期很多模型都强。

而且最关键的是它用的是开源模型,DeepSeekV3.1参数70B,不是那些大公司捂着不放的闭源模型。

这就意味着中小团队也能拿过去改,不用只能看着大公司的模型眼馋,我觉得这点比分数本身还重要,开源才能让更多人参与到科学AI里来,不然就成了少数人的游戏。

团队还做了错误分析,发现Eigen-1的错误里,大部分是推理过程和知识应用没结合好,两者还大量重叠,反而理解指令和执行步骤的错误很少。

这说明现在AI搞科学推理,缺的不是“知道知识”或者“会推理”,而是“把知识用对推理里”。

就像咱们知道公式,但不知道啥时候用,再厉害的公式也白搭。

他们还测了每个组件的作用。

最开始的基线系统,没外部知识的时候准度很低,加了显式RAG准度上去了,但工作步骤快翻倍了,这就是“工具税”的坑。

加了Monitor之后,虽然准度稍降,但token消耗和步骤都少了很多;再加上Querier、Injector、HSR和QAIR,准度才到48.3%,还保持了高效。

这说明每个组件都不是凑数的,少一个都不行,不是随便堆技术就能成的。

还有个有意思的发现,信息检索任务里,解法越多样越准;但推理任务里,大家结论越一致越准。

本来想是不是越统一越好,后来发现得看任务类型,检索要多找不同角度,推理要大家都认可才靠谱。

这个结论给以后AI设计指了路,不用再一刀切了。

Eigen-1的团队说,接下来要把技术扩展到物理学、材料科学这些领域,还想整合到科学工作流里。

说实话,这才是科学AI该走的路,不是光在测试集上考高分,而是帮科学家干活儿,加速研究进度。

现在很多科研步骤还得人工来,要是AI能把文献理解、数据计算、推理验证串起来,能省不少事儿。

而且它基于开源模型,以后会有更多人在这个基础上改,可能会冒出更多有意思的应用。

比如有实验室已经用类似的隐式RAG技术分析基因序列,效率提了40%,要是以后在药物研发、新材料设计上用上,说不定能出更多成果。

总的来说,Eigen-1破了HLE的60分,不只是一个分数的突破。

它证明了开源模型能跟闭源模型掰手腕,还给出了一套解决“知识和推理结合”的方法。

科学AI不是靠堆参数、靠闭源垄断就能发展的,开源+精准协作才是王道。

HLE不是AI的最后一个考试,而是科学AI往实用走的新起点,以后说不定还能看到更多AI帮人类破解科学难题的事儿。

来源:乐娱侃事

相关推荐