Anthropic 重磅发布 Claude Sonnet 4.5

摘要：Anthropic发布Claude Sonnet 4.5，号称最佳编码模型，性能卓越。同时更新Claude Code，发布Agent SDK，并推出“Imagine with Claude”即时软件生成实验。

Anthropic发布Claude Sonnet 4.5，号称最佳编码模型，性能卓越。同时更新Claude Code，发布Agent SDK，并推出“Imagine with Claude”即时软件生成实验。

译自：Anthropic Launches Claude Sonnet 4.5

作者：Frederic Lardinois

Anthropic 的 Claude Sonnet 和 Opus 大型语言模型长期以来一直是开发人员的最爱。今天，该公司推出了 Claude Sonnet 4.5，这是其主流模型的最新版本，该公司将其描述为“世界上最好的编码模型”。

该公司还发布了 Claude Code 的更新，一个 Claude Agent SDK，允许开发人员使用 Anthropic 自己使用的工具构建代理，以及一个 VS Code 扩展等。

还有一个引人入胜的新实验，“Imagine with Claude”，它使用新模型即时生成软件（但仅对 Claude Max 订阅者开放，且仅限未来五天）。

Anthropic 表示，Sonnet 4.5 将更可靠地遵循指令并重构现有代码。在 SWE-Bench Verified 基准测试中，该测试评估模型处理一系列真实世界 GitHub 拉取请求的能力，Sonnet 4.5 得分为 77.2%（并联测试时计算能力可达 82%）。

Anthropic 表示，在某些方面，Sonnet 4.5 现在超越了该公司旗舰模型 Opus 4.1，包括在金融服务行业解决问题。

在 OSWorld 上，一个测试人工智能模型在真实计算机使用任务中表现的基准，Sonnet 4.5 现在以 61.4% 的成功率位居榜首。这比之前以 43.9% 成功率位居榜首的 Sonnet 4 有了重大飞跃，也击败了之前得分约为 44% 的 Opus 4.1。

图片来源：Anthropic。

对于长时间运行的复杂任务，Sonnet 4.5 现在可以自主运行 30 小时，而 Opus 4 只有 7 小时。Anthropic 表示，通过这些模型更新，Sonnet 4.5 现在可以在“全程保持专注和性能”的同时完成这些任务，不过这还需要一些测试来验证其在真实场景中是否属实。

在几乎所有编码基准测试中，Sonnet 4.1 都击败了 OpenAI 的 GPT-5 和 Google 的 Gemini 2.5 Pro 等竞争对手。然而，在视觉推理基准测试中，Anthropic 的模型通常表现稍逊一筹，竞争对手仍保持领先。

图片来源：Anthropic。

但更重要的是，Anthropic 赋予了该模型访问多项新功能的能力——类似于其 Claude Code 编码代理所拥有的功能。这些功能包括访问虚拟机和内存，以及更好的上下文管理和多代理支持。

值得一提的是，Anthropic 表示 Sonnet 4.5 是其发布的第一个能够重建 Claude.ai 网页应用程序的模型，这项工作耗时约五个半小时，涉及 3,000 多次工具使用。

Cursor 首席执行官 Michael Truell 表示：“我们看到 Claude Sonnet 4.5 展现了最先进的编码性能，在更长期的任务上有了显著改进。”“这进一步证明了为什么许多使用 Cursor 的开发人员选择 Claude 来解决他们最复杂的问题。”

Sonnet 4.5 的定价将保持不变，输入/输出每百万 token 分别为 3 美元/15 美元，与 Anthropic 之前对 Sonnet 4 的收费相同。

图片来源：Anthropic。

谈到 Claude Code，Anthropic 的编码代理现在当然也能访问这个新模型，但该公司也推出了不少新功能。例如，Anthropic 表示，Claude Code 目前的年化收入已超过 5 亿美元，过去三个月的使用量增长了 10 倍以上，它正在获得一个原生的 Visual Studio Code 扩展。这将允许开发人员通过内联差异实时查看 Claude Code 所做的更改。

终端中的 Claude Code 也得到了一些更新，状态可见性得到改进，并增加了可搜索的提示历史记录。鉴于您可能经常希望重复使用提示，最后一个功能尤其有用。以前，您要么必须在终端中找到这些提示并复制粘贴，要么将它们保存到终端之外。

新增的功能还有检查点，这使得在 Claude Code 脱离脚本时更容易回滚代码。以前，开发人员必须通过将代码推送到其仓库或（天哪！）进行本地备份来手动完成此操作。

对于那些希望基于与 Claude Code 相同的基础构建代理的开发人员，Anthropic 正在推出 Claude Agent SDK。Anthropic 表示，这个新的 SDK 使用与 Claude Code 相同的底层基础设施，但允许开发人员构建他们想要的任何代理。该 SDK 将包含代理编排、内存和上下文管理、工具使用、权限管理等功能。