GPT-5 vs Claude Opus 4.1：编程能力测评

摘要：聊起严肃的编程，Anthropic 的 Claude 几乎是公认的王者，在很多开发者心里都是 No.1 的位置。

大数据文摘受权转载自夕小瑶科技说

聊起严肃的编程，Anthropic 的 Claude 几乎是公认的王者，在很多开发者心里都是 No.1 的位置。

但最近，风向似乎有点变了。

OpenAI 发布了 GPT-5，我在公众号里、社群里、论坛里，很多地方都在刷屏一个消息：GPT-5 来了，而且在编程能力上“强得可怕”。

虽然看了很多说 GPT-5 是“编程新王”所谓的噱头和关于 GPT5 的评测，说实话，我还没看到一份有说服力的报告。要么是拿官方的 demo 说事，要么是测了几个美观度还行的 web 网页就说 GPT-5 强。用这些下结论有点草率了吧。

所以，对于 GPT-5 和 Claude 谁更厉害，模型编程 Feature 各自擅长什么，好多人和我一样好奇，

今天刷到国外的一位开发者老哥 Rohit 发布了一篇 GPT-5 vs Claude Opus 4.1 编程能力的评测博客，比较实用，这里 share 出来。

首选，评测生成的所有代码都开源了，可以在这个链接查看。

先说核心的结论：

算法：GPT‑5 在速度与 token 数量上胜出（8K vs 79K）。

网页开发：Opus 4.1 对 Figma 设计稿的还原度更高，但消耗的 token 量更大（90 万 vs 140 万 + token）；

GPT-5 响应更快且成本更低， token 消耗比 Opus 4.1 节省约 90%，更适合作为一个高效的日常开发助手使用；如果你想要设计还原度高，而且预算灵活，Opus 4.1 则更具优势。

再来看模型基础信息与 token 使用效率对比：

上下文窗口：Claude Opus 4.1 支持 20 万 token，上限输出不详；而 GPT‑5 支持 40 万 token 上下文，最大可输出 128K token。

Token 使用效率：尽管 GPT‑5 的上下文空间更大，但在相同任务下它总是使用更少的 token，从而大幅降低运行成本。

虽然在 SWE-bench 等编码基准测试中，GPT‑5 略微领先于 Opus 4.1，但作者后续还实测了一些 case。

测试内容涵盖实际开发常见场景：

编程语言与任务类型：

算法题：使用 Java 语言实现 LeetCode Advanced 题目。

Web 开发：使用 TypeScript + React，编写基于 Figma 设计的 Next.js 页面，通过 Rube MCP（一种通用 MCP 接入层）进行代码生成。

其他任务：包括客户流失预测模型等业务逻辑实现。

环境：所有任务均在 Cursor IDE 联合 Rube MCP 的环境中完成。

测量指标：token 数量、耗时、代码质量、实际结果。

两个模型使用完全一样的提示词。

01 Figma 设计稿开发

Rohit 从 Figma 社区找了一个复杂的仪表盘设计，要求它俩用 Next.js 和 TypeScript 把它复刻出来。

提示词如下：

Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use MCP's Figma toolkit for this task.

Try to make it as close as possible. Use Next.js with TypeScript. Include:

Responsive design

Proper component structure

Styled-components or CSS modules

Interactive elements

两位选手的表现：

GPT-5：

耗时：约 10 分钟Tokens：906,485（90 万 token）

GPT-5 的效率没得说，10 分钟就交卷了，应用也能跑。但成品……怎么说呢，功能完备，但视觉效果一言难尽。它 get 到了设计的框架，却完全忽略了灵魂。颜色、间距、字体都和原稿相去甚远，仿佛开了“低保真”模式。

是一个能干活的工程师，但是不懂审美而且干活很粗糙。

Claude Opus 4.1：

耗时：更长（因为反复迭代）Tokens：超过 140 万 token (比 GPT-5 多了 55%！)

Opus 4.1 上来先耍了点“小脾气”，明明指定了 styled-components，它非要用 Tailwind，需要人工纠正。但当它“认错”并开始工作后，结果令人震惊。

UI 几乎与 Figma 设计稿一模一样！视觉保真度堪称完美。

一位追求完美的“艺术家”，虽然烧钱又有点犟，但作品无可挑剔。

02 LeetCode 算法题

为了考验纯粹的逻辑和效率，Rohit 抛出了经典的 LeetCode 难题：“寻找两个正序数组的中位数”，并要求时间复杂度为 O(log(m+n))”。

提示词如下：

Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).

GPT-5：

GPT-5 几乎没有任何废话，13 秒内给出了一个干净利落、完全正确的二分查找解法。代码优雅，效率拉满。

耗时：约 34 秒Tokens：78,920 (接近 GPT-5 的 10 倍！)

Opus 4.1 则完全是另一种画风。它不仅给出了答案，还附上了一篇“小论文”：详细的推理步骤、全面的代码注释，甚至内置了测试用例，生怕你学不会。虽然算法核心是一样的，但它的输出附带了极高的“教育价值”。

想快速要答案，找 GPT-5；想学习解题思路，Opus 4.1 是你最好的老师。

03 ML 复杂任务

最后一个挑战是构建一个完整的机器学习的 pipeline，预测客户流失。

然而，在见识了 Opus 4.1 在第一轮中惊人的 token 消耗后，Rohit 出于对钱包的尊重，明智地让它“轮休”了。这一局，只有 GPT-5 单挑。

提示词如下：

Build a complete ML pipeline for predicting customer churn, including:

Data preprocessing and cleaning

Feature engineering

Model selection and training

Evaluation and metrics

Explain the reasoning behind each step in detail

结果显示，GPT-5 完全能胜任这种复杂的端到端任务。从数据预处理、特征工程，到多模型训练（逻辑回归、随机森林、XGBoost），再到使用 SMOTE 处理数据不平衡问题和全面的效果评估，整个流程一气呵成，代码扎实可靠。

04 成本对决：真金白银的较量

效果看完了，那我们来算算账。毕竟，这才可能是最能影响开发者选择的因素。

GPT-5 (Thinking 模式)-完成三项测试任务

Web 应用：~$2.58

算法：~$0.03

ML 流水线：~$0.88

总计：约 $3.50

Opus 4.1 (Thinking + Max 模式)-仅完成两项测试任务

Web 应用：~$7.15

算法：~$0.43

总计：$7.58

结论一目了然：Opus 4.1 的使用成本是 GPT-5 的两倍以上。

05 评测结论

GPT-5 的优势

算法任务中 token 使用少、响应快，效率极高。

更适合日常开发，尤其是快速迭代与原型验证。

整体 token 成本大幅低于 Opus 4.1。

Claude Opus 4.1 的优势：

提供清晰的、一步步解释的代码逻辑，对学习过程友好。

在视觉 fidelity（设计还原度）方面表现出色，非常贴近 Figma 原稿。

适合对界面精度要求高的场景。

所以，如果你是日常开发，优先使用 GPT‑5，性能与成本兼顾。如果界面还原要求高的设计任务，可选择 Claude Opus 4.1，提升最终效果，但需预算充足。

推荐组合策略：先用 GPT‑5 打好基础，然后在关键界面环节，用 Opus 4.1 打磨细节，实现效率与精度的平衡。

参考文献

GPU 训练特惠！

H100/H200 GPU算力按秒计费，平均节省开支30%以上！

来源：大数据文摘一点号

标签：编程 claude opus figma vsclaude

本文地址：http://news.43b.com.cn/a/742380.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐