又一所谓「最强模型」Claude4发布，往超级Agent方向发展，企图降维打击Gemini

摘要：在AI技术飞速发展的今天，各大科技公司纷纷推出自己的AI模型，试图在激烈的市场竞争中占据一席之地。最近，Anthropic发布了其最新的AI模型Claude 4，号称专为编码、高级推理和AI Agent任务设计，旨在超越现有的顶尖模型。本文将深入探讨Claud

在AI技术飞速发展的今天，各大科技公司纷纷推出自己的AI模型，试图在激烈的市场竞争中占据一席之地。最近，Anthropic发布了其最新的AI模型Claude 4，号称专为编码、高级推理和AI Agent任务设计，旨在超越现有的顶尖模型。本文将深入探讨Claude 4的性能特点、应用场景以及它对现有AI市场的潜在影响，同时对比Claude 4与Gemini等其他顶尖模型的优劣，揭示这场AI军备竞赛的最新动态。

AI编程军备大赛进入白热化阶段了，前脚Gemini 2.5 pro完成屠榜，后脚Claude4就来了，肯定是瞄准了对手薄弱点来打的，看看是怎么个事？

太长不看版，直接划重点：

炸裂登场：Anthropic 深夜突袭！Claude Opus 4 和 Claude Sonnet 4 正式发布，号称专为编码、高级推理和 AI Agent 任务设计！编码新王：Claude Opus 4 在 SWE-bench (72.5%) 和 Terminal-bench (43.2%) 上干翻其他模型，能连续爆肝数小时，Agent 产品狂喜！Sonnet 4 同样强悍 (SWE-bench 72.7%)，关键是免费用户可用！超级记忆：Claude 4 记忆力飙升！能创建和维护“记忆文件”，长时任务不再失忆，甚至能自己写《宝可梦》攻略！工具大师：两款模型都能并行使用工具，在推理和工具使用间反复横跳，指令遵循能力Max！Claude Code 转正：直接在 VS Code、JetBrains 里用，还能响应 GitHub PR，GitHub CEO 都来站台！实测效果逆天：一句话生成浏览器代理、俄罗斯方块、复杂三维空间、CRM 仪表盘，细节拉满，逻辑在线！价格不变：Opus 4 每百万 token 输入/输出 75，Sonnet 4 15。API、Amazon Bedrock、Google Cloud Vertex AI 全面上线！Agent 未来已来：上下文智能、长时间执行、真正协作，这就是 Anthropic 的野心！

文末附Claude4与 3.7、Gemini的全方位对比表格。

昨天凌晨！Anthropic 举办了首届开发者大会，主题直接点燃全场——Code with Claude！CEO Dario Amodei 开场即王炸：“Claude Opus 4 和 Claude Sonnet 4，今天正式上线！” 台下掌声雷动，开发者们的期待值瞬间拉满！这波操作，直接让 AI 圈又一次集体高潮！

小细节：以前叫 Claude 3 Opus，现在数字后置，改叫 Claude Opus 4 了，格局打开！

这两款模型，完全是冲着编码、高级推理和AI Agent任务去的，野心不是一般的大！

Claude Opus 4：Anthropic 直接放话——全球最强编码模型！专治各种复杂的编程疑难杂症，能自主编程数小时，性能稳如老狗！Claude Sonnet 4：作为 Claude Sonnet 3.7 的暴力升级版，比 Opus 4 更轻更快，适合实时响应场景，但推理和编程能力照样吊打一片！最最最重要的是：免费用户可用！这羊毛，必须薅！模型能力：登顶全球开源王座！

官方放出的榜单简直闪瞎眼！根据 SWE-bench 测试结果，Opus 4 和 Sonnet 4 在基础测试上分别拿到 72.5% 和 72.7% 的准确率，把自家 Sonnet 3.7（62.3%）远远甩在身后。而在更变态的“并行测试”中，Opus 4 和 Sonnet 4 更是飙到了 79.4% 和 80.2%！意思很明确：老子就是最强的编程模型，不服来战！

Image

不只是编程，其他领域也毫不含糊。在研究生级别的推理（Graduate-level reasoning）、多语言问答（MMMLU）上，跟 OpenAI o3 并驾齐驱，并列第一。而在工具使用（Agentic tool use）领域，更是遥遥领先，把第二名 OpenAI o3 甩开将近 10% 的身位！唯一的短板可能是视觉推理（Visual Reasoning），跟上一代基本持平，属于垫底水平，看来是把技能点全加到别处了。

Image

更恐怖的是记忆能力！Claude Opus 4 在这方面显著超越了之前所有模型。当开发者授予本地文件访问权限时，Opus 4 能够熟练地创建和维护”记忆文件”来存储关键信息。官方甚至秀了一个 Opus 4 玩《宝可梦》时自己创建“导航指南”记录进度的骚操作！这AI，怕是要成精！

Image

两款模型均可以在推理过程中使用工具，在推理和工具使用之间交替进行，并且可以并行使用工具！同时，指令遵循能力和记忆能力也得到了显著加强。它们是混合模型，可以提供近乎即时的响应和用于更深层次推理的扩展思考两种模式。

Claude Code 正式发布：生态护城河已成！

除了模型本身，发布会另一大重点就是编程 Agent——Claude Code！这玩意儿不仅能在终端跑，还能直接集成到 Vscode 和 Jetbrain 里，AI 的修改建议直接糊你脸上，这结对编程体验，简直了！

更牛的是，Claude Code SDK 也来了！开发者可以直接在自己的程序里调用 Claude Code 的核心能力。现场演示了让 Claude Code 在 Github 中写文档、提 PR，Github CEO 甚至亲自到场站台！这面子给的，足！如果说 Claude 4 模型是 Anthropic 的基石，那 Claude Code 就是生态！基石 + 生态 = 护城河，这棋下得够大！

新 API 功能与Agent未来

新 API 功能也是一大亮点：代码执行工具、MCP 连接器、Files API 以及可缓存提示长达一小时的能力。借助新的 Code Execution Tool 和 Files API，Claude 4 不仅仅是执行代码，而是可以读取结果，并根据结果进行修正、重构代码，甚至提交！最终结果就是 Claude 4 可以在无人干预的情况下，连续自动工作 7 个小时！0% 摸鱼的那种！

Anthropic 的首席产品官 Mike Krieger 还透露，他们内部广泛使用 AI 工具后，新员工平均上手时间从 2-3 周，直接干到了 2-3 天！效率提升肉眼可见！

开发者大会上还提到了认知 Agents 的未来三大追求上下文智能 (Contextual intelligence)：AI 代理理解和适应复杂环境及情境的能力。长时间执行 (Long-running execution)：AI 代理持续、稳定执行复杂任务的能力。真正的协作 (Genuine collaboration)：AI 代理与人类或其他系统建立真实、有效协作关系的能力。 Anthropic 正是朝着这个方向在优化模型，代码能力 & Agent 能力，这就是未来几年的主题！落地场景实测效果惊人

一句话生成的CRM仪表盘，功能可用，样式惊艳

之后又是一个相对复杂的后端页面，广告投放管理系统数据分析仪表盘，要求可交互，结果同样惊艳，动效超级丰富，所有东西都能交互！需要注意的是，上面所有案例，我都没要求任何具体逻辑，全是它自由发挥，强到离谱！比较坑的是，Opus 我就跑了这几个案例，Plus 会员就给我干到上限了，太扯了！

Claude Sonnet 4 也相当能打，我用那个巨长的自定义主题提示词测试，一次成功！要知道之前 3.7 我调了 N 次才搞定，尤其是导出那部分。现在这玩意儿还免费了！

定价与可用性：诚意满满！

最重要的定价来了！Claude Sonnet 4 会向免费用户开放，简直是天大的好消息！ API 定价与之前的 Opus 和 Sonnet 模型保持一致：

Opus 4：每百万 token 输入/输出价格为 15/75 美元。Sonnet 4：每百万 token 输入/输出价格为 3/15 美元。 Opus 4 对付费用户开放，包括 Pro、Max、Team 和 Enterprise Claude 套餐。模型现已在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上线。

行业大佬集体高潮，用户直接喊“牛X”！

这次发布，行业大佬们也是不吝赞美：

Cursor：Opus 4 是编程领域的重大突破！GitHub：将把 Sonnet 4 作为 GitHub Copilot 的基础模型！Replit：跨多文件复杂修改方面有了“戏剧性的改进”！Rakuten：让 Opus 4 独立重构开源代码，连续跑了 7 小时，稳如泰山！

X 上的用户更是炸开了锅，各种“一句话生成XXX”的案例刷屏：

一句话生成可用的浏览器代理，小哥直接爆粗！

一句话生成可工作的俄罗斯方块，UI 精致，方块带高光！

一句话生成复杂可交互的三维空间！

一句话生成的俄罗斯方块，细节感人

这些案例的共同点就是：一句话。编程的范式，可能真的要变天了。

Anthropic 自己都说了：“编程的发展历史就是从低级语言，不断地切换到高级语言。随着 AI 和编程代理的发展，现在只需要用语言来描述需求。” 看 Claude 4 这表现，他们确实有底气这么讲！AI 编程的军备竞赛，再次进入白热化阶段！每个月都有新的“地表最强”登顶，这场比赛，没有终点！上上次是 O3，上次是 Gemini 2.5 Pro，这次是 Claude 4…… 下一次，会是谁呢？

来源：人人都是产品经理

标签：模型 gemini sonnet agent claude4

本文地址：http://news.43b.com.cn/a/323787.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!