摘要:北京时间5月23日,在Anthropic首届"Code with Claude"开发者大会上,Anthropic首席产品官Mike Kriger跟Anthropic 首席执行官兼联合创始人 Dario Amade进行了一对一的访谈。
北京时间5月23日,在Anthropic首届"Code with Claude"开发者大会上,Anthropic首席产品官Mike Kriger跟Anthropic 首席执行官兼联合创始人 Dario Amade进行了一对一的访谈。
在访谈中,两人谈到了Claude 4 模型的创新,以及未来可能的应用场景,以及AI飞速发展,模型可能对各行各业带来的影响。
Dario Amade表示,编码领域将发生巨变,未来软件生产成本可能降至极低,重新定义开发者、用户、创业公司等概念的定义。“我们正朝着一个人类开发者可以管理一个Agent舰队的世界前进。”
Dario Amade还表示,在Claude 4 模型的训练过程中,团队继续看到预训练Scaling laws按照它们以前的方式工作,同时后训练也在持续进步。
当问及何时会有第一家只有一名人类员工的十亿美元(独角兽)公司时,Dario Amade几乎不假思索地表示:“2026年”。
以下是智能超参数翻译的谈话实录,为方便阅读,内容经过编辑:
Mike: 你好,又见面了。现在Claude Sonnet 4和Claude Opus 4都已上线。关于Claude 4模型,最让你兴奋的是什么?它是否改变了你对未来12个月可能性的思考?
Dario: 从宏观层面来看,最让我兴奋的是,每当出现新一代模型时,你就能用它做更多的事情。所以,在 Claude 4 之后我们还会继续发布新的模型。未来某个时候,我们很可能会推出 Claude 4.1,就像我们之前推出 Sonnet 3.5 那样。而且我认为,对于新一代模型我们能做些什么,我们才刚刚开始探索。
在任务层面,我认为模型的自主性将会比现在更进一步。也就是让模型自由发挥,赋予它长时间执行任务的能力。我认为在这方面,我们仍处在非常初级的阶段。
实际上,我对模型在网络安全任务方面的应用越来越感到兴奋。我的意思是,你可以把网络安全看作是编码任务的一个子集,但它们往往是更高端的编码任务。因此,我认为我们可能终于达到了能够胜任这类任务的门槛。
Mike: Claude 4如何融入"慈爱的机器(Machines of Loving Grace)的计划中?我喜欢开玩笑说,人们把"慈爱的机器"当作一篇文章来看,而我把它当作未来几年的产品路线图。
Dario: 是的,它有点像我写下的一个产品路线图,当时我并不知道具体该如何实现它,然后就跟大家说:“好吧,伙计们,这是你们的工作,你们的任务。”
我想,我们在生物学领域的思考越来越多,软件是其中的一部分,而且占比越来越大。因为生物学越来越多地涉及到数据——十年前,我还是个生物学者的时候,它就已经涉及到数据了。
我认为未来会越来越多地变成这样:我们拥有这些非常了解生物学的模型,它们可以帮助编写代码。所以,如果你是一名计算生物学家,我认为这些模型将真正加速你的工作进程。我们有很多客户正在试用这些模型来完成这类任务。
我想稍后我们会谈到这一点。我记得我们发布MCP后的第一次黑客马拉松活动中,有人把MCP连接到了那些能画画的绘图机器上。所以Claude可以为你画画。看Claude为自己画什么真的很有趣。
但这是第一次让我意识到,MCP不仅仅是连接数字系统,它们也可以连接现实世界。所以你什么时候能通过MCP驱动实验室设备,我认为这是未来一个有趣的问题。
Mike: 很快我们就能通过连接测谎仪来测试Claude了。
Dario: 是的,我喜欢这个想法。你在撒谎吗?当我们有测谎仪时,谁还需要可解释性呢?
Mike: 你提到过有那么一个时刻,你确信 Claude 写的内容是人类写的。在观察内部测试 Claude 4,或者你自己试用的时候,有没有其他让你意识到这个模型感觉不一样了的突破性时刻?
Dario: 我其实不太了解具体细节,但是我们团队里有好几个人都提到了。那是在模型发布前几周的一个时刻,有人说:“天啊,这个模型一次性就解决了一个非常困难的性能工程任务。” 以前没有任何模型做到过类似的事情。
我必须要说,在模型开发过程中,存在一种近乎迷信的现象,那就是即使训练过程是完全计划好的,所有东西也总是在最后一刻才奇迹般地整合到一起。仅仅是模型的一些能力——也许是与人互动的方式,也许是最后那一点点改进起了关键作用,又或许是人们逐渐适应了模型并学会了如何更好地提示它。
但你总会发现,对于模型的早期版本,人们总是很难弄清楚如何使用它们。然后,你最终会达到一个点,人们会说:“这东西对我来说总是很管用。” 就是有那么一种奇妙的化学反应,不知为何总是在最后一刻发生。
Mike:如果你读过Ed Catmull的《创新公司》这本书,他谈到皮克斯所有电影都有同样的过程。它们在上映前两天都还非常糟糕。
我对我们的模型也有同样的感觉。我之前觉得它们真的很糟糕,或者说,它们还没完全到位。然后突然之间,它们就“咔哒”一下融会贯通了,我们就会觉得:“我迫不及待想把这个展示给人们。”
Dario: 你可能会认为它不应该是这样的,一切都应该是一个理性的过程,但事实完全不是。
Mike:RL曲线上没有特定的点。
Dario: 它们就是在最后一刻结合在一起。我不知道为什么。这是一个真实的时刻。
Mike: 观众中有很多开发者。一个我知道在内部出现的问题是,随着AI的发展,软件工程工作的哪些部分会被AI接管?在一个自主Agent能够做大量软件工程的世界里,什么变得更重要?
Dario: 可能像这里的许多人一样,我几个月前饶有兴趣地读了Steve Yegge的博客文章《初级开发者的复仇》。他有一些类似的博客文章。他甚至来拜访过我们。那篇文章阐述了我认为事情发展的愿景,甚至比我能做的更好。
我们正在逐渐走向模型越来越多拥有自主性。我们经历了基本上是自动完成的阶段。现在有一种我想人们称之为"氛围编程"的东西。然后我们正在走向更多的,你可以派遣Agent去做事情。
我认为通过Claude Code,我们将更多地朝着你可以派遣Agent去做事情的方向发展。我确信我们还会有其他产品界面,也允许你这样做。
我认为我们正朝着一个人类开发者可以管理一个Agent舰队的世界前进,说:"你去做这个,你去做这个,你去做那个。"但我认为持续的人类参与对于质量控制很重要,确保它们做正确的事情,把细节弄对。
因此,在模型和围绕它的产品界面上合作,把细节弄对,这将非常重要。
Mike:我认为这也向我强调了,它让你工作中低效的东西变得更加痛苦,因为它让你远离这种构建的流程。至少它让我意识到我们在跨职能协调上花费了太多时间。还有路线图规划,而我们应该只是尝试更多地构建。所以当工程部分被加速时,它也变得更加痛苦。
行业内关于更大的模型还是更小的架构哪个会在长期获胜有无穷的辩论。你因推广和开创Scaling laws论文而闻名。你对极端观点的当前看法是什么?预训练死了吗?预训练仍然是最重要的吗?它相对于后训练的作用是什么?
Dario: 我的意思是,不过于具体地说,我会说Claude 4模型体现了预训练和后训练的进步。所以我们继续看到预训练Scaling laws按照它们以前的方式工作。我们也继续看到后训练的持续进步。它们彼此互补,我们将继续看到这两方面的进步。
我们也将继续扩大规模。这些多重指数增长源,将相互叠加。这就是为什么所有这些都进展得非常快。
我喜欢Steve Yegge博客文章的原因之一是,终于有不是我的人在重复那个说法了,就是"只需要一两年,这些东西基本上就会成为我们的同伴"。
Mike: 简直难以置信,Claude Sonnet 3.7 版本才刚在二月份发布。感觉像是过了一年,但其实才三个月前的事。
Dario:我知道。感觉就像是,“哦,这模型好像已经过时了似的。” 但它发布还不到——大概也就两个半月左右。时间尺度仿佛在不断压缩。我常说,身处人工智能领域——我稍微跑个题——身处人工智能领域,感觉就像是登上一艘以相对论速度离开地球的宇宙飞船。某天你醒来,发现飞船上的一天,地球上已经过了两天。所以你必须消化两天的新闻。然后速度加快,飞船上的一天,地球上过了三天。这就是乘坐这趟“飞船”的感觉。
Mike: 这很有共鸣。我以前从未听过这个比喻,但绝对如此。我在 Claude 4 中看到的一项令我非常兴奋的进展是记忆这个概念,以及模型能够管理自身记忆的能力。你能稍微谈谈为什么这很重要,以及它能带来哪些可能性吗?
Dario: 是的。我们发现这非常有用。我想,我们发现它有用的一个地方是宝可梦游戏,其中一个模型能够记住自身的状态。但除了宝可梦,它对很多其他事情也很有用。我认为这很棒,模型能像人一样——当我在思考时,我会写下一堆笔记,然后在稍后回忆这些笔记。
或者说,我需要做很多中间工作。模型在进行推理时,当它们有我们的推理痕迹时,在某种程度上也会这样做。但并非我做的所有事情都能整合到一个暂存区里。比如有演示文稿,有我写的各种独立文件。模型也是如此。让它们能够创建文件,处理这些文件,加载数据,并无缝地将这些事情交错处理,这个想法很重要。
我们的一项新功能就是这种交错进行推理和采取行动的能力。其中一些行动可以是存储数据、回忆数据。再次强调,模型所拥有的能力正逐渐向人类所拥有的能力靠拢,我认为这本就该如此。
Mike: 到目前为止,Claude 4 给我带来的一个令人大开眼界的时刻是,我们基本上给 Claude Code 配备了一个待办事项暂存板。看着它快速处理待办事项列表,然后在想到更多要做的事情时,就把它们添加到待办事项列表中,完成一项就勾掉一项,把不再相关的内容划掉。
我认为,这真的模仿了人们管理自己工作的方式,以及他们在这个过程中如何思考任务的完成。还有就是交错进行的推理和工具使用。
我今天早上就在 Mac Stories 网站上看到一个例子,它在使用一个工具——是一个 MCP——然后它遇到了后端 MCP 服务器的速率限制。因为它一直在进行推理,所以它判断:“我可能达到速率限制了。让我试试另一种方法来做这件事。” 因此,这种在工具使用过程中进行推理和补救的能力,我认为非常强大。
我很想谈谈“力争上游”(race to the top)这个概念。安全和能力通常被认为是相互矛盾的。而你的论点恰恰相反,即这两者可以齐头并进。这非常鼓舞人心,也是我加入公司的原因之一。谈谈你是如何看待“力争上游”的吗?
Dario: 是的,我认为它适用于从非常平凡、简单和商业化的事物,一直到人工智能未来发展的宏伟方向。当与客户交流时,我们有很多客户非常关心确保他们 AI 模型的行为是可预测的、值得信赖的。
我认为这与我们长期努力的目标是一致的,即确保模型在更宏大的意义上与人类意图保持一致。所以这里存在一种很好的协同效应。而且我认为,只要我们有能力这样做,只要我们认为这样做是合理或负责任的,我们就确实希望为社区提供工具。MCP 就是一个例子。
我自己其实也对大家围绕 MCP 迅速形成标准的速度感到惊讶。这非常奇特。我们是在去年十一月发布的它,它没有立即引起了巨大反响。但随后在三四个月内,它就差不多成为了标准。
再一次,有那种身处宇宙飞船、加速离开地球、经历越来越大的时间膨胀的感觉。就好比,想想 USB 和其他标准。想想九十年代的标准。人们要花好几年的时间才能就某件事达成共识并形成标准。
Mike: 是的,甚至在与业内其他参与者谈论 MCP 时,他们也表示:“我们不想拖慢任何在 MCP 上运行良好的东西。我们确实需要在方向上获得一些帮助。但你们已经抓住了千载难逢的机遇。让我们确保它成为新的协议和我们实现Agent互操作的标准。”
我非常喜欢您那篇关于可解释性紧迫性的文章。你也有神经科学背景。你如何看待可解释性和机器智能的共同发展吗?
Dario: 十年前,许多人认为神经科学会告诉我们如何做人工智能。事实上,这个领域里有很多前神经科学家。我不是唯一的一个。还有其他实验室的负责人,其中一些人也有这个背景。
我发现,在宏观层面上,神经科学确实提供了一些灵感。但我不会说我曾经说过:“哦,这就是我们如何将从下丘脑学到的知识用于制造这些模型。” 几乎所有东西都是从零开始的。
但有趣的是,更多的情况是反过来的:通过使用可解释性,我们能够洞察模型的内部。当然,在某种表面层面上,它们的制造方式与人脑并不完全相同,存在很多差异。我们在模型内部发现的许多概念模式,有时随后会在神经科学研究中得到复制。
有一些关于视觉中高低频检测器的东西是Chris Olah团队中的一个人通过可解释性发现的。几年后,一位神经科学家确实在动物大脑中复制了这一发现。
比如说,视觉模型会区分出不同的处理路径——一条路径倾向于对应颜色,另一条路径对应亮度或物体之间的边界。这些似乎是世界上天然存在的、有待被发现的区别。
任何时候,只要你有一个抽象的学习系统,无论是人工的还是生物的,你都会发现类似的东西。所以这非常有趣。
Mike: 我真的很好奇关于“回路”(circuits)的论文最终会如何影响神经科学研究。让我们展望一下五到十年,你认为什么时候会有第一家只有一名人类员工的十亿美元公司(独角兽公司)?
Dario: 2026年。
Mike:如此坚信不疑。 对于明年使用Claude构建的人,你有什么建议吗?如何在前沿进行构建?
Dario: 是的,我认为关于如何使用模型有很多非常具体的事情可以说。但我觉得由于这整个相对论时间膨胀的事情,这种加速,几乎所有的建议都被一句话淹没了,也许是两个词,就是"要有野心"。
要去构建一些比你认为可能的更伟大的东西。即使它现在还不能完全工作,下一代会有另一个模型出来,现在是三个月,但可能会降到两个月,然后一个月。
然后,如果我想在今年晚些时候再来,也许我会给出这样的建议:“哦,今天什么都别建了。我们今天刚发布了一些东西,但到了今晚——你可能就不想用今早发布的这个版本来构建了。”
Mike:我和一个两年前在自主AI编程Agent领域创办公司的创始人交谈过。他基本上尝试了每一个模型,都不太行。然后实际上是3.7,他说:"我的初创公司现在工作了。"这和我之前说的类似,那些你努力尝试但非常困难的事情,突然之间就变得可能了。
Dario:有时候,“撞南墙”实际上可能是有益的,因为你已经把所有其他部分都准备就绪了。除了模型之外,一切都运转正常。然后,当模型也开始工作时,就好像你构建了一个比实际需求更强大的东西,这反而可能成为一个积极的特性。
所以,尽管我开玩笑说:“哦,你只要等下一个模型就行了”,但实际上,只要你尝试的是“几乎可能”实现的事情——而不是那种距离当前可能性还有三年之遥的目标——那么坚持不懈地尝试其实是富有成效的。
Mike:我们甚至在内部的高级研究中看到了这一点。我们的研究和Claude Skills团队构建了这个原型。模型有点迷失了方向。它不擅长使用工具。然后有了3.7,特别是Claude 4,你会发现它也能非常非常好地进行高级研究。这是因为我们一路上也在不断尝试,也不断经历某种程度的失败。
Dario: 是的,这几乎就像是你希望你的初创公司能针对下一个模型进行“推测性执行”(speculative execution)。我不知道怎么形容,但我喜欢这个想法。
Mike: 是的,我认为这完全正确。最后一个问题来总结一下。对于我们今天许多不是Dario的人来说,我们无法想象AI取得的进步和快速变化的步伐。对于未来一年以及接下来的五年,最期待的是什么?
Dario: 我认为在接下来的一年里,我们将在代码领域看到一些令人难以置信的事情。我会再次提到,从我们现在 Claude Code 和编码模型的水平出发,发展到那种Agent“舰队”的阶段。我认为这将在世界上产生一个有趣的影响。那就是,我不知道我们是否从经济或商业角度仔细思考过,当软件生产成本下降时会发生什么。
有一种假设,只有当有数百万人,或者至少数十万甚至数万人使用时,你才会去制作软件,才值得去做。你不会为今天这样一个活动专门开发一个完整的软件。你可能会临时拼凑点什么。
但是,当软件开发变得非常便宜,成本可能只需要20美分时,情况就不同了。当这些东西可以在几秒钟内以不到一美元的成本临时、一次性地制作出来时,世界将会变得非常不同。开发者的角色是什么?企业的角色是什么?初创公司的角色是什么?使用它的人的体验是什么?我们对这些问题都还没有答案。所以这非常有趣。
在五年时间的跨度上,我将再次回到生物学。我认为,在未来一年内,生物医学领域不会发生革命性的变化,因为它的发展比较缓慢。但是,我希望五年后,我们能够攻克许多目前存在的疾病。
Mike:我喜欢这个愿景。我们就以此结束。谢谢你,Dario。
来源:智能超参数一点号