摘要:大数据文摘出品OpenAI在8月7日正式推出新一代旗舰大模型GPT-5。据说,这是该公司自成立以来最受关注的一次产品迭代,被宣称是“最强大、最智能”的语言模型,能够在推理、创意生成和多模态理解等多个方面实现质的飞跃。
API 还有 gpt-5-thinking-nano;ChatGPT 里有一种并行推理设置称 gpt-5-thinking-pro。
理论上,这能让用户始终得到最匹配的计算能力。但在发布当日,核心的自动切换功能宕机了数小时,导致大量用户接入的模型并非预期版本,体验直接“降级”。这让GPT-5在不少用户眼中“显得很笨”。更糟的是,OpenAI在直播发布会中展示的性能图表出现明显错误。奥特曼解释称,这是由于团队成员工作至深夜,极度疲惫之下出现的“人为失误”。他补充说明,尽管直播出现差错,但配套发布的博客文章和系统卡片中的数据是准确的。
用户界面的变化也引发混乱。新版ChatGPT中,一些用户发现无法再选择旧的GPT-4o,这让很多依赖其稳定性的长期订阅者(包括小编)措手不及。
面对大量投诉,OpenAI紧急调整策略,宣布ChatGPT Plus用户可继续使用GPT-4o,以便公司在收集更多性能对比数据后再决定下一步。按照OpenAI的内部测试结果,GPT-5在各项基准上领先于市面上其他大模型。但当真实用户开始大规模使用时,这些光鲜的数字迅速被质疑。
上线后的第一天,社交平台上充斥着用户吐槽GPT-5在数学、逻辑、编程等基础任务上的低级错误。一位推特网名为Colin Fraser分享了截图:当被问到“8.888循环是否等于9”时,GPT-5给出了错误答案。另一位用户在测试方程“5.9 = x + 5.11”时,同样收到了错误解答。
一些用户在数学文字题中发现,GPT-5要么计算错误,要么无法理解题意。而在代码调试中,它甚至无法正确修复自己制作的演示文稿图表的错误数据。
在开发者圈子里,批评声音同样密集。
多位程序员对比发现,GPT-5在“一次性”完成特定编程任务的能力,反而落后于竞争对手Anthropic的Claude Opus 4.1。这种差距不仅存在于复杂推理任务,甚至在简单的脚本编写中也能明显感知。
安全领域的反馈更让人担忧。网络安全公司SPLX测试后指出,GPT-5依旧容易受到提示注入(Prompt Injection)和混淆逻辑攻击。这意味着,攻击者仍有机会通过巧妙构造的输入绕过安全限制,获得敏感信息或让模型执行非预期操作。奥特曼透露,GPT-5上线仅24小时内,API调用量就翻倍,直接给后台带来了额外压力。这种激增在一定程度上加剧了平台的不稳定,也让运维团队调整限额与路由以稳定体验。
为了安抚高付费用户,OpenAI宣布将ChatGPT Plus的调用速率限制提升一倍,并承诺持续优化基础设施,确保在高峰时段也能稳定响应。同时,公司正在收集用户在不同版本上的交互数据,用于判断GPT-5在真实场景中的优劣势。
显然,OpenAI此刻面临的挑战,不仅是修复技术问题,还要重建用户对其产品节奏与决策流程的信任。如果GPT-5不能在接下来的几周内通过更新兑现“质的飞跃”的承诺,这次发布可能会被视为一次代价高昂的公关失误。reddit:https://www.reddit.com/r/ChatGPT/comments/1mkae1l/gpt5_ama_with_openais_sam_altman_and_some_of_the/?q=%E2%80%9CPeople+were+working+late+and+were+very+tired%2C+and+human+error+got+in+the+way.+A+lot+comes+together+for+a+livestream+in+the+last+hours.%E2%80%9D&type=comments&cId=3ba2c830-41e3-426f-829a-fd7fcc5ce27b&iId=aa80770e-1c54-4e68-83b3-c787514a0947
来源:大数据文摘