Claude4发布：实测代码更强，同时Cue了Manus

摘要：在 WebApp 上，Sonnet 免费，Opus 4 付费在 API 上，上下文均为 200k，定价与前代一致，每百万 token：Opus 输入 $15，输出 $75Sonnet 输入 $3，输出 $15

今天凌晨，Claude 4 系列模型发布 ，包括：

• Claude Opus 4 （旗舰） • Claude Sonnet 4 （主力）

这两款模型同时支持扩展推理（extended thinking）、工具调用、文件读取、并行任务等 Agent 工作流所需核心能力。

在 WebApp 上， Sonnet 免费，Opus 4 付费
在 API 上，上下文均为 200k，定价与前代一致 ，每百万 token：
Opus 输入 $15，输出 $75
Sonnet 输入 $3，输出 $15

编程能力提升

作为旗舰模型的 Claude Opus 4 ，针对复杂编程场景，进行了很多优化：

• 跨文件编辑能力 ：模型可识别项目结构，在多个文件间同步修改，减少遗漏； • 复杂指令执行 ：更好地解析多条件、分步骤的请求； • 长时间任务保持 ：具备较强的上下文记忆能力，适合执行耗时较长的流程； • 逻辑完整性增强 ：在多步推理中更少出现跳步或模板式回答的问题。

根据公开基准测试数据，Claude Opus4 在 SWE-bench 中得分为 72.5%，在 Terminal-bench 得分为 43.2%。这两个得分均高于 GPT-4.1（54.6%/30.3%）和 Gemini 2.5 Pro（63.2%/25.3%）。

编程相关跑分

另外的，你会发现 Claude Sonnet 4 在 SWE-bench 得分为 72.7%，略高于 Opus 4。
该模型是对 Sonnet 3.7 的升级，提升了响应速度和执行精度，适合在原有场景中替代旧版使用。

SWE-bench 新能力加入

除了模型本身外，Claude 4 系列还做了几项关键能力提升：

• 工具调用能力（beta） ：模型可以在中途调用工具（如 Web 搜索、本地文件读取、代码执行），用于补充信息或运行指令，适配更多类 Agent 工作流。 • 并行工具使用 ：多个工具调用可同时进行，任务拆解与执行效率提升，适合复杂任务路径或并发型指令。 • 内存机制增强 ：开发者授权 Claude 访问本地文件后，模型可以创建“记忆文档”，记录上下文关键信息，增强长任务一致性和延续性。

通过记忆剧情，让 AI 玩宝可梦• 规避任务“捷径”行为 ：Anthropic 表示 Claude 4 系列在容易作弊的任务中，出现“偷懒”行为（如跳过中间步骤）的概率减少了 65% ，使得多步骤任务执行更稳、更可控。比如下面，这种可恶的代码省略： def square_numbers(numbers):
result =
for n in numbers:
# ...省略：计算平方
result.append(n) # 本应是 result.append(n ** 2)
return result

# 测试
nums = [1, 2, 3, 4]
print("Squared:", square_numbers(nums)) # 输出 [1, 2, 3, 4]，但本应是 [1, 4, 9, 16]

这些东西吧，它没办法体现在跑分离，但在很多编程自动化领域，会非常受用。

Claude Code 更新

Claude Code 已正式开放，方便开发者可以把 Claude 更深地嵌入日常开发流程。新增内容包括：

• 支持 GitHub Actions ：Claude 可以作为后台 Agent 执行代码任务。 • 原生集成 IDE ：提供 VS Code 和 JetBrains 插件，Claude 的修改建议会直接以“行内标注”的方式呈现在代码中，无需额外切换。 • Claude Code SDK ：开发者可以用它来自定义自己的 Agent，或构建 AI 协同工具。 • 在 GitHub 中 @Claude ：可以 @Claude Code 参与 PR 审查，自动响应修改建议、修复 CI 报错等。实测

我一直想跑这么一个任务，但无论 GPT、Gemini 还是之前的 Claude 都没有成功：

生成 3D 演示动画，像中学生演示四冲程发动机的工作原理