摘要:在 WebApp 上,Sonnet 免费,Opus 4 付费在 API 上,上下文均为 200k,定价与前代一致,每百万 token:Opus 输入 $15,输出 $75Sonnet 输入 $3,输出 $15
今天凌晨,Claude 4 系列模型发布 ,包括:
• Claude Opus 4 (旗舰) • Claude Sonnet 4 (主力)这两款模型同时支持扩展推理(extended thinking)、工具调用、文件读取、并行任务等 Agent 工作流所需核心能力。
在 WebApp 上, Sonnet 免费,Opus 4 付费
在 API 上,上下文均为 200k,定价与前代一致 ,每百万 token:
Opus 输入 $15,输出 $75
Sonnet 输入 $3,输出 $15
作为旗舰模型的 Claude Opus 4 ,针对复杂编程场景,进行了很多优化:
• 跨文件编辑能力 :模型可识别项目结构,在多个文件间同步修改,减少遗漏; • 复杂指令执行 :更好地解析多条件、分步骤的请求; • 长时间任务保持 :具备较强的上下文记忆能力,适合执行耗时较长的流程; • 逻辑完整性增强 :在多步推理中更少出现跳步或模板式回答的问题。根据公开基准测试数据,Claude Opus4 在 SWE-bench 中得分为 72.5%,在 Terminal-bench 得分为 43.2%。这两个得分均高于 GPT-4.1(54.6%/30.3%)和 Gemini 2.5 Pro(63.2%/25.3%)。
另外的,你会发现 Claude Sonnet 4 在 SWE-bench 得分为 72.7%,略高于 Opus 4。
该模型是对 Sonnet 3.7 的升级,提升了响应速度和执行精度,适合在原有场景中替代旧版使用。
除了模型本身外,Claude 4 系列还做了几项关键能力提升:
• 工具调用能力(beta) :模型可以在中途调用工具(如 Web 搜索、本地文件读取、代码执行),用于补充信息或运行指令,适配更多类 Agent 工作流。 • 并行工具使用 :多个工具调用可同时进行,任务拆解与执行效率提升,适合复杂任务路径或并发型指令。 • 内存机制增强 :开发者授权 Claude 访问本地文件后,模型可以创建“记忆文档”,记录上下文关键信息,增强长任务一致性和延续性。result =
for n in numbers:
# ...省略:计算平方
result.append(n) # 本应是 result.append(n ** 2)
return result
# 测试
nums = [1, 2, 3, 4]
print("Squared:", square_numbers(nums)) # 输出 [1, 2, 3, 4],但本应是 [1, 4, 9, 16]
这些东西吧,它没办法体现在跑分离,但在很多编程自动化领域,会非常受用。
Claude Code 更新Claude Code 已正式开放,方便开发者可以把 Claude 更深地嵌入日常开发流程。新增内容包括:
• 支持 GitHub Actions :Claude 可以作为后台 Agent 执行代码任务。 • 原生集成 IDE :提供 VS Code 和 JetBrains 插件,Claude 的修改建议会直接以“行内标注”的方式呈现在代码中,无需额外切换。 • Claude Code SDK :开发者可以用它来自定义自己的 Agent,或构建 AI 协同工具。 • 在 GitHub 中 @Claude :可以 @Claude Code 参与 PR 审查,自动响应修改建议、修复 CI 报错等。 实测我一直想跑这么一个任务,但无论 GPT、Gemini 还是之前的 Claude 都没有成功:
生成 3D 演示动画,像中学生演示四冲程发动机的工作原理
在这次发布中,Anthropic 引用了多个第三方开发者工具的反馈,包括 GitHub、Sourcegraph、Augment Code 等。值得注意的是,国产 Agent 工具 Manus 的评价也被收录:
Manus highlights its improvements in following complex instructions, clear reasoning, and aesthetic outputs.
这是目前为止 首次有国产 Agent 工具出现在 Anthropic 的正式发布文档中 。
考虑到 Anthropic 长期对中国市场较为保守的公开态度( 中译中:不友好 ),这条引用颇有趣味。
附1: Anthropic CEO 的万字檄文
来源:东窗史谈一点号