摘要:在今日凌晨的直播活动中,OpenAI正式推出了备受瞩目的GPT-5模型,宣称其为自家迄今为止最出色的模型,在编程、数学、写作、健康、视觉感知等多个领域均展现出顶尖实力。
在今日凌晨的直播活动中,OpenAI正式推出了备受瞩目的GPT-5模型,宣称其为自家迄今为止最出色的模型,在编程、数学、写作、健康、视觉感知等多个领域均展现出顶尖实力。
OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)在发布会上表示,GPT-5是公司此前人工智能模型的重大升级,与它交流如同与各领域专家对话。
据悉,GPT-5将于本周四起逐步向免费用户和付费用户开放。付费用户将享有更高的使用限额,而Pro订阅者更可无限访问GPT-5,并体验GPT-5Pro的强大功能。Plus用户则能将其设为日常问题的默认模型,使用量远超免费用户。
GPT-5是一个高度统一的系统,由智能高效模型、深度推理模型(GPT-5thinking)和实时路由器三大部分组成。智能高效模型负责回答大多数问题,深度推理模型则专攻复杂难题。实时路由器则根据对话类型、复杂性等因素,智能选择最合适的模型进行处理,并持续基于真实信号进行训练改进。一旦达到使用限制,各模型的精简版将接手处理剩余查询,未来OpenAI计划将这些功能整合至单一模型中。
在基准测试中,GPT-5的表现超越了以往所有模型,不仅回答问题速度更快,而且解答更具实用性,有效减少了幻觉现象,改进了指令遵循能力,并最大程度减少了谄媚性回答。特别是在写作、编程和健康咨询等ChatGPT常见应用场景中,GPT-5的表现提升尤为显著。
在编程领域,GPT-5被誉为迄今为止最强的编程模型,在复杂前端生成和大型代码库调试方面取得了显著进步,能够根据单个提示创建美观且响应迅速的网站、应用程序和游戏等。在创意表达与写作方面,GPT-5能将粗略想法转化为富有文学深度和节奏感的作品,更好地处理结构模糊的写作任务,并在日常写作中提供更多帮助。在健康领域,GPT-5在与健康相关的问题上表现最佳,HealthBench得分显著高于以往模型,能更主动地标记潜在问题并提问,以提供更有帮助的答案,还能根据用户背景、知识水平和地理位置提供更精确可靠的响应,但OpenAI明确强调,该模型不能替代医疗专业人员。
此外,GPT-5在数学(AIME2025无工具时得分94.6%)、真实世界编程(SWE-bench Verified得分74.9%、Aider Polyglot得分88%)、多模态理解(MMMU得分84.2%)和健康(HealthBench Hard得分46.2%)等方面也创造了新的最先进水平。
值得一提的是,GPT-5Pro凭借其扩展推理能力,在GPQA测试中也创造了新的最先进水平,无工具时得分高达88.4%。作为OpenAI推出的用于最具挑战性、最复杂任务的模型,GPT-5Pro替代了之前的OpenAI o3-Pro,其思考时间更长,使用规模化但高效的并行测试时计算,能够提供最高质量和最全面的答案。
在多个具有挑战性的智力基准测试中,GPT-5Pro均表现出色,在超过1000个有经济价值的真实世界推理提示评估中,外部专家在67.8%的情况下更青睐GPT-5Pro,其主要错误减少了22%,在健康、科学、数学和编程方面均展现出卓越实力。
来源:大力财经