Nature独家:初创公司首次推出用于科学的强大AI推理模型”

B站影视 日本电影 2025-06-06 19:26 2

摘要:随着人工智能 (AI) 工具撼动了科学工作流程,Sam Rodriques 梦想着进行更系统的转型。他的初创公司 FutureHouse 位于加利福尼亚州旧金山,旨在培养一名“AI 科学家”,能够指挥从假设生成到纸张生产的整个研究管道。

FutureHouse 研究人员 James Braza、Siddharth Narayanan 和 Andrew White(从左到右)。图片来源:FutureHouse

随着人工智能 (AI) 工具撼动了科学工作流程,Sam Rodriques 梦想着进行更系统的转型。他的初创公司 FutureHouse 位于加利福尼亚州旧金山,旨在培养一名“AI 科学家”,能够指挥从假设生成到纸张生产的整个研究管道。

今天,他的团队朝着这个方向迈出了一步,发布了所谓的第一个真正的“推理模型”,专门为科学任务设计。该模型称为 ether0,是一个专为化学构建的大型语言模型 (LLM),它只需通过测试大约 500,000 个问题即可学习到。按照通俗易懂的英语说明,ether0 可以吐出满足一系列标准的类药物分子公式。

最好的研究 AI 工具是什么?大自然指南

Ether0 是开源的,从今天开始公开提供,它加入了许多其他旨在实现科学过程自动化的努力,包括 Google 和日本公司 Sakana AI。但与以前的专业模型不同,ether0 以自然语言跟踪其“思路”,为了解 AI 的“黑匣子”提供了一个窗口,并允许它回答通常需要复杂推理的问题。尽管一些通用推理模型(如 OpenAI o1)在标准化科学测试中显示出改进,但如果没有有针对性的训练,它们就难以产生深入的见解。

研究人员对 FutureHouse 的进步表达了兴奋和担忧的混合。“我认为他们取得的成就非常酷,”德国耶拿大学的数字化学家 Kevin Jablonka 说。在试用 ether0 的预览版时,Jablonka 发现该模型可以得出关于化学性质的有意义的推断,而这些化学性质是它没有经过训练的。“这令人印象深刻,以前的 [某些] 模型无法做到,”他说。

该模型是 FutureHouse 的最新版本,该公司于 2023 年作为非营利组织推出,由谷歌前首席执行官埃里克·施密特 (Eric Schmidt) 支持,其使命是利用人工智能加速科学进程。在过去的一年里,该公司发布了一个高级科学文献审稿人和一个人工智能代理平台——专为特定任务设计的基于 LLM 的工具。这些代理从科学文献中汲取灵感,并部署分子设计工具来分析数据并回答有关药物设计的详细问题。5 月,该团队宣布已使用这些模型提出了一种新的治疗方法1对于干性年龄相关性黄斑变性,这是导致失明的主要原因。

“代理对于在文献中查找所有这些在众目睽睽之下盯着我们的东西非常有用,”FutureHouse 的化学工程师 Andrew White 说,他正在纽约罗切斯特大学休假。但与大多数 LLM 一样,代理从根本上受到互联网上可用化学信息数量的限制。“现在这些模型在实验室中几乎没有实际影响,”领导发表的一篇评论的 Jabbonka 说2上个月关于 LLM 的化学实力。

FutureHouse 于 2023 年在谷歌前首席执行官埃里克·施密特 (Eric Schmidt) 的支持下推出。图片来源:Patrick T. Fallon/AFP via Getty

为了实现更接近真正理解的结果,计算机科学家们转向了“推理模型”,例如中国的 DeepSeek-R1 模型。这些 AI 被提示与自己交谈,并展示导致他们回答的工作。研究表明,这种内部对话似乎提高了他们对复杂问题的准确性,这导致 Rodriques 怀疑它们可能有助于产生新的研究想法。

Jablonka 说,以前,当领先的推理模型处理科学问题时,它们主要关注通过标准化考试并理解基本的教科书。“到目前为止,还没有一个模型在化学中以任何有用的方式进行推理。”FutureHouse 着手改变这种情况。

FutureHouse 的研究人员从法国初创公司 Mistral AI 那里获取了一个相对较小的 LLM,它比 DeepSeek-R1 小大约 25 倍,足够紧凑,可以在笔记本电脑上运行。他们发现,他们不需要在化学教科书和论文上训练模型,而是可以让它从考试中学习。为此,White 从 45 篇学术论文中汇编了实验室生成的化学结果,跟踪分子溶解度和气味等特性,并将它们转化为 577,790 个可验证的问题。

AI 能否审查科学文献并弄清楚这一切意味着什么?

研究人员通过要求基础模型阅读 DeepSeek-R1 生成的错误解决方案和推理链来教它“大声思考”。该模型的七个版本分别尝试解决化学问题的特定子集,正确答案会获得强化奖励。然后,研究人员将这些专业模型的推理链合并为一个通才模型。在再次运行问题集后,他们只剩下 ether0。

该团队使用另一组问题来评估 ether0 的性能,其中一些问题与训练集中的问题无关。几乎从整体上看,ether0 的表现优于 OpenAI 的 GPT-4.1 和 DeepSeek-R1 等前沿模型。对于某些问题类型,该模型的准确性是其竞争对手的两倍多。它这样做是为了划算:训练一个类似的最先进的非推理模型以在反应预测上达到相当的准确性,使用的数据多了 50 倍。

但是,由于 ether0 只能以分子式和反应的形式生成解决方案,因此很难在独立基准上将其性能与其他模型和人类进行交叉检查,Jablonka 说。

尽管如此,Jablonka 发现该模型可以正确推断它没有经过训练的分子结构——例如,通过改变分子的公式以适应特定的核磁共振光谱。“我没想到会这样,”他说。

人工智能的进步可以为机器人实验室铺平道路,使部分科学过程完全自动化。图片来源:Qilai Shen/Bloomberg via Getty

Rodriques 说,这些推理模型提供的最大机会是“你可以看到他们在整个过程中在想什么”。他的团队发现,如果允许模型推理更长时间,答案会变得更准确,但更难以辨认——混合使用不同的语言并发明新词。该团队决定通过限制推理时间,优先考虑可解释性而不是准确性。

坦佩亚利桑那州立大学的计算机科学家 Subbarao Kambhampati 反对这种方法。他和他的同事发现,LLM 从推理中获得的准确性提高与他们的推理是否正确几乎没有关系。Kambhampati 认为,用可读的英语呈现未经验证的思维链会给人一种错误的印象,即模型理解并检查每个步骤。“你是在利用人类的认知缺陷,”他说。“在我看来,这是产生信任的错误方式。”

尽管如此,Kambhampati 还是欢迎将推理模型引入化学的努力。“我的感觉是,这些模型将产生非常好的科学计算器——这没什么好打喷嚏的,”他说。

Rodriques 的梦想远远超出了计算器。他认为,将推理能力嵌入到专业代理中将使他的团队能够端到端地自动化科学方法——而不仅仅是化学。尽管 FutureHouse 计划专注于化学,因为它认为化学更适合自然语言推理,但该团队预计其他小组将把这种方法推广到自然科学中。

AI 驱动的科学搜索引擎如何加快您的研究速度

Rodriques 预测,在两年内,大多数好的科学假设“可能由我们或我们正在构建的系统产生”。与施密特对人工智能科学的愿景保持一致,Rodriques 预见了机器人技术的进步,这些进步将使工作台工作自动化,让人类科学家承担“资源分配”的责任——选择要追求的研究问题。

有些人反对这个未来。“这就是今天正在接受科学家培训的人想成为的样子吗?”去年,她和新泽西州普林斯顿大学(Princeton University)的心理学家M·J·克罗克特(M. J. Crockett)争论道3对人工智能工具的过度依赖可能会造成“科学单一文化”,其中某些问题和方法占主导地位,产生的知识变得不那么多样化和稳健。

即使是也在培养化学人工智能科学家的 Jablonka 也警告说,“仅仅把一切都交给大型科技公司运营的 LLM 驱动会很危险”。

Rodriques 承认这些担忧,但表示“踩刹车不是正确的解决方案”。“人工智能将极大地加速科学发现的过程,”他补充道,“但就像任何其他工具一样,它也会有缺陷。

来源:人工智能学家

相关推荐