摘要:“千呼万唤始出来”的GPT-5平平无奇,是全球人工智能模型进入“春秋战国”时代的写照。即使最早称霸,OpenAI如今也甩不开一众对手——各诸侯秣马厉兵,势力差距仅在3至6个月之间。
北京时间8月8日凌晨,美国人工智能公司OpenAI的新一代旗舰模型GPT-5正式发布。
“千呼万唤始出来”的GPT-5平平无奇,是全球人工智能模型进入“春秋战国”时代的写照。即使最早称霸,OpenAI如今也甩不开一众对手——各诸侯秣马厉兵,势力差距仅在3至6个月之间。
发布会前,OpenAI首席执行官山姆·奥特曼自嘲“在GPT-5面前一无是处”——“大话”推高了大众的期待,自然引发“就这”的嘲讽。
OpenAI首席执行官山姆·奥特曼
到目前为止,人工智能最有商业价值的成果就是“市场营销”——所谓“AI承诺”。而无论是GPT-5,还是Grok 4、Claude Opus 4,抑或Gemini 2.5 Pro,这些业界顶级模型都算不上“颠覆性产品”,而是行业飞速迭代、降本增效的折射。
但山姆·奥特曼的“大话”又不得不说:GPT-5难产了一年多;十多名核心人才接连被扎克伯格斥重金挖走;勉强开源两个小模型保住“Open”的头衔……归根结底,OpenAI的现金流要如何支撑1分钟烧掉1.5万美元的消耗?
后又有追兵,OpenAI面对内忧外患,焦虑已经弥漫开来。
GPT-5并不具有颠覆性,有点类似计算机系统的“日常更新”,这一现象是行业进入“深水区”的标志——随着投入加大,产品的边际收益递减。
从发布会情况看,GPT-5有两项重要技术突破:处理多模态任务的模型能力和工具使用能力。
2025年上半年,人工智能的“智能体”(Agent)应用昙花一现,主要问题是基础模型的能力尚不足以支撑复杂的指令理解和工具调用。
GPT-5想解决这个问题。OpenAI联合创始人格雷格·布罗克曼在GPT-5发布会以代码场景举例,GPT-5遵循指令,调用多项工具,使用能力相对成熟,还能指挥多个智能体协同工作。
基础大模型的能力提高后,更多的智能体乃至AI应用将随之诞生。一旦AI应用多了,芯片、模型、算力和应用将形成一个“飞轮”,促进整个人工智能行业的加速运转。
山姆·奥特曼在社交平台提到,GPT-5能在几分钟内生成数百行代码
不过,这两项“突破”平平无奇,看不出有甩开世面上其他智能体的本领;它的多个型号也是“新瓶装旧酒”。
拿自家产品比较的话,GPT-5是没有推理能力的o4.5,GPT-5-mini是没有推理能力的o4.5-mini,GPT-5-nano本质上是GPT-4.2。GPT-5-thinking是带有少量推理能力的o4.5,GPT-5-pro是带有并行推理能力的o4.5,而o4.5是带有推理能力的GPT-4.5+。
如果拿到“人类最后的考试”中测验,GPT-5的成绩比ChatGPT Agent好一些,可是ChatGPT Agent也没有好到哪里去。“人类最后的考试”是针对大语言模型的基准测试,由2500个前沿学术难题组成。截至2025年6月5日,拿下测试冠军的是谷歌的Gemini 2.5 Pro Preview,OpenAI的o3(high)排第二。
“人类最后的考试”成绩对比
总之,目前来看GPT-5的拼凑感很明显,根本没有达到GPT-3迭代到GPT-4时的跃升;通用人工智能(AGI)更是无从谈起。
GPT-5最大的竞争力可能是价格,定价与Gemini 2.5 Pro打个平手,确实不容易。毕竟谷歌用的是自己家的芯片,而OpenAI都是买英伟达的芯片。
从GPT-5“卡壳”一年多看,OpenAI遭遇的“技术瓶颈”也是很明显的。
首先,预训练式的天花板已经出现。高质量网络数据接近枯竭,大模型能抓取的互联网文本、代码库等开源资源几乎“竭泽而渔”。
同时,适用于千亿级参数的训练技巧在万亿规模上失效,甚至导致了性能倒退。去年下半年启动的“猎户座”项目,本来是GPT-5的前身,终因提升有限被迫降级为GPT-4.5,成了OpenAI旗下“最短命模型”。
GPT-4.5和GPT-4o的模型评估分数对比/截图自:OpenAI
其次,推理模型遭遇了“天才诅咒”。OpenAI的o3推理模型,在“原始状态”时具有超强的问题解决能力,但是没有办法转化成用户可用的界面——强制它用自然语言输出,它的推理能力就大幅压缩,出现“降智”现象。这也意味着,AI智能和人类的“可沟通性”之间始终存在鸿沟。
另外,一而再再而三的“低级错误”也会遭反噬。
除了之前的“9.11大于9.9”之外,此次发布会出现一则图表数据失真:将69.1数值的柱状图绘制的比52.8数值的还低。有点小毛病是正常的,但是山姆·奥特曼经常夸下海口,这种夸大宣传一直在消耗公众的信任,从而也暴露了OpenAI在技术乏力下的焦虑。
GPT-5把69.1数值的柱状图绘制的比52.8数值的还低
因为,竞争激烈的时代,霸主比追赶者更焦虑。
OpenAI是全球估值最高、收入最高的AI创业公司。截至2025年8月,OpenAI再次融资83亿美元,累计融资额超过797亿美元,估值约3000亿美元。
截至今年8月,ChatGPT日活跃用户1.8亿,注册用户7亿,付费企业用户数量500万,付费个人用户数量约2000万。其年度经常性收入(ARR)约120亿美元。
ChatGPT的周活跃用户
相比之下,全球第二大AI创业公司Anthropic估值615亿美元,融资总额不到200亿美元,ARR预计为50亿美元。OpenAI的营收规模大约是Anthropic的2.4倍。
关键,竞争对手不止创业公司,谷歌、Meta和埃隆·马斯克的xAI都是强劲的“敌人”。它们的旗舰模型和OpenAI的差距在3个月以内。中国市场的两款开源模型——阿里的Qwen系列、AI创业公司深度求索的DeepSeek系列,和OpenAI旗舰模型差距仅为3—6个月。
2025年以来,人工智能大模型的竞争态势,逐渐从“技术神话”转向“商业肉搏”;而“霸主”OpenAI由于乏善可陈,也逐渐“苹果化”。
一方面,技术瓶颈普遍存在,各家大模型都没有“力压群雄”的本事,实力比较接近,“技术神话”吹不起来;一方面,应用的紧迫性如影随形,技术再强,如果产品不能落地、不能对用户“有用”,那么技术迟早变成空中楼阁,因此“肉搏战”难以避免。
OpenAI遭遇的第一枪,就是不“Open”。身为开源大模型的“鼻祖”,自打ChatGPT横空出世后,OpenAI就坚决不开源了。2025年1月,中国的开源模型DeepSeek凭借卓越的性价比挑战GPT-4,使OpenAI饱受质疑——性能差距如此之小,OpenAI闭源模型的溢价合理性何在?
由于“猎户座”项目难产,GPT-5又必须“赶鸭子上架”,OpenAI还是抢在GPT-5发布的两天前先抛出了两个开源小模型,以杜世人批评“不开源”的悠悠之口。
OpenAI在GPT-5发布前先发出的模型/截图自:OpenAI
但是,开源模型更像是为了“开源”而开源,开源的根本不是OpenAI“压箱底”的真本领。就像人们想看看“大宗师”的绝活,大宗师只展示了一套“太祖长拳”,焉能不令人失望。
另外,技术亮点不足,OpenAI也开始拼低价、拼“辨识度”。
OpenAI用价格战替代技术战。特别是马斯克,发布会还没看完就开始在社交媒体吐槽“GPT-5还没我两个星期前的Grok 4 Heavy聪明哩”,OpenAI的办法就是用“免费GPT-5”反击,毕竟Grok 4 Heavy月费要300美元。
GPT-5也跟Grok 4学了一招——“人格化”。前一阵子Grok应用推出了三款“同伴”,有男有女有动物,迅速吸引大批用户。GPT-5也设置了4种人格,“愤青”立马化身“网络喷子”,喷无不胜;“机器人”是四平八稳的小助理;“倾听者”能更好地理解“心事”;“书呆子”保证满腹经纶。
GPT-5可以选择不同的人格
OpenAI最大的挑战还是人才能否留得住。Meta自家的大模型Llama实力并不差,但因为“元宇宙”战略和“Libra”加密币接连折戟,AI领域也显得一盘散沙,CEO扎克伯格砸下数十亿美元,从各家AI公司大肆挖人。
OpenAI有十多名核心成员已经转投Meta门下,直接导致研发延期、团队动荡。从长远看,人才的流动虽然是每个行业的正常现象,但大规模的集中“流动”恐怕会对公司造成压倒性的影响。能不能留住人,怎么留住人,对OpenAI而言依然是个难题。
而且,和“东家”微软的关系也存在矛盾。根据OpenAI与微软的协议,2030年之前,微软都可以使用OpenAI的技术。但是,一部分OpenAI的高级研究人员不愿意将技术发明提供给微软,其中也存在着技术理想与资本变现的博弈。
山姆·奥特曼(左)和微软公司CEO萨蒂亚·纳德拉(右)/图源:OpenAI
值得思考的是,科技领域的“苹果化”现象正蔓延到OpenAI身上。
就像苹果作为消费电子乃至整个科技行业的巨头,市值多年蝉联第一(近期才被英伟达挑战),随着创新能力和市场需求的下降,不得不保持“挤牙膏式”更新:每年发布新品都曝光一个极小的“新意”,典型案例就是2022年的“灵动岛”——乍一看很有趣,仔细一看很鸡肋。
GPT-5的发布同样是一个“挤牙膏”行为,也是整个人工智能行业变化的“信号”——技术的渐进式优化成为常态,资本与人才的竞争日趋白热化,用户从仰望神话到期待实际效果。
在这样的背景下,中国大模型队伍有望继续追赶、超车。AI竞争终归是一场耐力赛。
来源:南风窗NFC