GPT-5 vs Claude Opus 4.1:编程能力测评

B站影视 电影资讯 2025-08-12 17:40 4

摘要:聊起严肃的编程,Anthropic 的 Claude 几乎是公认的王者,在很多开发者心里都是 No.1 的位置。

大数据文摘受权转载自夕小瑶科技说

聊起严肃的编程,Anthropic 的 Claude 几乎是公认的王者,在很多开发者心里都是 No.1 的位置。

但最近,风向似乎有点变了。

OpenAI 发布了 GPT-5,我在公众号里、社群里、论坛里,很多地方都在刷屏一个消息:GPT-5 来了,而且在编程能力上“强得可怕”。

虽然看了很多说 GPT-5 是“编程新王”所谓的噱头和关于 GPT5 的评测,说实话,我还没看到一份有说服力的报告。要么是拿官方的 demo 说事,要么是测了几个美观度还行的 web 网页就说 GPT-5 强。用这些下结论有点草率了吧。

所以,对于 GPT-5 和 Claude 谁更厉害,模型编程 Feature 各自擅长什么,好多人和我一样好奇,

今天刷到国外的一位开发者老哥 Rohit 发布了一篇 GPT-5 vs Claude Opus 4.1 编程能力的评测博客,比较实用,这里 share 出来。

首选,评测生成的所有代码都开源了,可以在这个链接查看。

先说核心的结论:

算法:GPT‑5 在速度与 token 数量上胜出(8K vs 79K)。

网页开发:Opus 4.1 对 Figma 设计稿的还原度更高,但消耗的 token 量更大(90 万 vs 140 万 + token);

GPT-5 响应更快且成本更低, token 消耗比 Opus 4.1 节省约 90%,更适合作为一个高效的日常开发助手使用;如果你想要设计还原度高,而且预算灵活,Opus 4.1 则更具优势。

再来看模型基础信息与 token 使用效率对比:

上下文窗口:Claude Opus 4.1 支持 20 万 token,上限输出不详;而 GPT‑5 支持 40 万 token 上下文,最大可输出 128K token。

Token 使用效率:尽管 GPT‑5 的上下文空间更大,但在相同任务下它总是使用更少的 token,从而大幅降低运行成本。

虽然在 SWE-bench 等编码基准测试中,GPT‑5 略微领先于 Opus 4.1,但作者后续还实测了一些 case。

测试内容涵盖实际开发常见场景:

编程语言与任务类型

算法题:使用 Java 语言实现 LeetCode Advanced 题目。

Web 开发:使用 TypeScript + React,编写基于 Figma 设计的 Next.js 页面,通过 Rube MCP(一种通用 MCP 接入层)进行代码生成。

其他任务:包括客户流失预测模型等业务逻辑实现。

环境:所有任务均在 Cursor IDE 联合 Rube MCP 的环境中完成。

测量指标:token 数量、耗时、代码质量、实际结果。

两个模型使用完全一样的提示词。

01 Figma 设计稿开发

Rohit 从 Figma 社区找了一个复杂的仪表盘设计,要求它俩用 Next.js 和 TypeScript 把它复刻出来。

提示词如下:

Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use MCP's Figma toolkit for this task.

Try to make it as close as possible. Use Next.js with TypeScript. Include:

Responsive design

Proper component structure

Styled-components or CSS modules

Interactive elements

两位选手的表现:

GPT-5:

耗时:约 10 分钟Tokens:906,485(90 万 token)

GPT-5 的效率没得说,10 分钟就交卷了,应用也能跑。但成品……怎么说呢,功能完备,但视觉效果一言难尽。它 get 到了设计的框架,却完全忽略了灵魂。颜色、间距、字体都和原稿相去甚远,仿佛开了“低保真”模式。

是一个能干活的工程师,但是不懂审美而且干活很粗糙。

Claude Opus 4.1:

耗时:更长(因为反复迭代)Tokens:超过 140 万 token (比 GPT-5 多了 55%!)

Opus 4.1 上来先耍了点“小脾气”,明明指定了 styled-components,它非要用 Tailwind,需要人工纠正。但当它“认错”并开始工作后,结果令人震惊。

UI 几乎与 Figma 设计稿一模一样! 视觉保真度堪称完美。

一位追求完美的“艺术家”,虽然烧钱又有点犟,但作品无可挑剔。

02 LeetCode 算法题

为了考验纯粹的逻辑和效率,Rohit 抛出了经典的 LeetCode 难题:“寻找两个正序数组的中位数”,并要求时间复杂度为 O(log(m+n))”。

提示词如下:

Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).

GPT-5:

GPT-5 几乎没有任何废话,13 秒内给出了一个干净利落、完全正确的二分查找解法。代码优雅,效率拉满。

耗时:约 34 秒Tokens:78,920 (接近 GPT-5 的 10 倍!)

Opus 4.1 则完全是另一种画风。它不仅给出了答案,还附上了一篇“小论文”:详细的推理步骤、全面的代码注释,甚至内置了测试用例,生怕你学不会。虽然算法核心是一样的,但它的输出附带了极高的“教育价值”。

想快速要答案,找 GPT-5;想学习解题思路,Opus 4.1 是你最好的老师。

03 ML 复杂任务

最后一个挑战是构建一个完整的机器学习的 pipeline,预测客户流失。

然而,在见识了 Opus 4.1 在第一轮中惊人的 token 消耗后,Rohit 出于对钱包的尊重,明智地让它“轮休”了。这一局,只有 GPT-5 单挑。

提示词如下:

Build a complete ML pipeline for predicting customer churn, including:

Data preprocessing and cleaning

Feature engineering

Model selection and training

Evaluation and metrics

Explain the reasoning behind each step in detail

结果显示,GPT-5 完全能胜任这种复杂的端到端任务。从数据预处理、特征工程,到多模型训练(逻辑回归、随机森林、XGBoost),再到使用 SMOTE 处理数据不平衡问题和全面的效果评估,整个流程一气呵成,代码扎实可靠。

04 成本对决:真金白银的较量

效果看完了,那我们来算算账。毕竟,这才可能是最能影响开发者选择的因素。

GPT-5 (Thinking 模式)-完成三项测试任务

Web 应用:~$2.58

算法:~$0.03

ML 流水线:~$0.88

总计:约 $3.50

Opus 4.1 (Thinking + Max 模式)-仅完成两项测试任务

Web 应用:~$7.15

算法:~$0.43

总计:$7.58

结论一目了然:Opus 4.1 的使用成本是 GPT-5 的两倍以上。

05 评测结论

GPT-5 的优势

算法任务中 token 使用少、响应快,效率极高。

更适合日常开发,尤其是快速迭代与原型验证。

整体 token 成本大幅低于 Opus 4.1。

Claude Opus 4.1 的优势

提供清晰的、一步步解释的代码逻辑,对学习过程友好。

在视觉 fidelity(设计还原度)方面表现出色,非常贴近 Figma 原稿。

适合对界面精度要求高的场景。

所以,如果你是日常开发,优先使用 GPT‑5,性能与成本兼顾。如果界面还原要求高的设计任务,可选择 Claude Opus 4.1,提升最终效果,但需预算充足。

推荐组合策略:先用 GPT‑5 打好基础,然后在关键界面环节,用 Opus 4.1 打磨细节,实现效率与精度的平衡。

参考文献

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

来源:大数据文摘一点号

相关推荐