摘要:OpenAI在今天凌晨的直播中,正式发布了GPT-5模型,号称是自家最出色的模型,在编程、数学、写作、健康、视觉感知等多个领域都具备顶尖的性能。
8月8日消息,OpenAI在今天凌晨的直播中,正式发布了GPT-5模型,号称是自家最出色的模型,在编程、数学、写作、健康、视觉感知等多个领域都具备顶尖的性能。
OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)称,GPT-5是该公司此前人工智能模型的“重大升级”,并表示“与它交流,真的就像在和任何领域的专家对话”。
GPT-5今日起开始向免费用户和付费用户逐步推出,付费用户拥有更高的使用限额。
Pro订阅者可无限访问GPT-5,并能使用GPT-5 Pro;Plus用户可将其作为日常问题的默认模型,使用量显著高于免费用户。
GPT-5是一个统一的系统,由智能高效模型+深度推理模型(GPT-5 thinking)+实时路由器组成。
其中,智能高效模型可回答大多数问题;深度推理模型用于解决更复杂的问题。
实时路由器则是会根据对话类型、复杂性、工具需求和用户明确意图,快速决定使用哪种模型,且会基于真实信号持续训练改进。
一旦达到使用限制,每个模型的精简版将处理剩余的查询,OpenAI未来将会把这些功能整合到一个单一模型中。
GPT-5在基准测试中表现优于之前的模型,回答问题速度更快,对实际问题的解答更有帮助,减少幻觉、改进指令遵循以及最大程度减少谄媚。
尤其在写作、编程和健康咨询这三个ChatGPT最常见的应用场景中表现提升。
编程:是迄今为止最强的编程模型,在复杂前端生成和大型代码库调试方面有显著改进,能根据单个提示创建美观且响应迅速的网站、应用程序和游戏等。
创意表达与写作:能将粗略想法转化为有文学深度和节奏的引人共鸣的作品,能更好地处理涉及结构模糊的写作,在日常写作任务中也更有帮助。
健康:在与健康相关的问题上表现最佳,在HealthBench上的得分显著高于以往任何模型,能更主动地标记潜在问题并提问以提供更有帮助的答案,还能根据用户的背景、知识水平和地理位置提供更精确可靠的响应,但不能替代医疗专业人员。
在数学(AIME 2025无工具时94.6%)、真实世界编程(SWE-bench Verified 74.9%、Aider Polyglot 88%)、多模态理解(MMMU 84.2%)和健康(HealthBench Hard 46.2%)等方面创造新的最先进水平。
GPT-5 Pro凭借扩展推理,在GPQA上也创造新的最先进水平,无工具时得分88.4%。
GPT-5 Pro用于最具挑战性、最复杂的任务,替代OpenAI o3-Pro,它的思考时间更长,使用规模化但高效的并行测试时计算,能提供最高质量和最全面的答案。
在多个具有挑战性的智力基准测试中表现最佳,在超过1000个有经济价值的真实世界推理提示的评估中,外部专家在67.8%的情况下更青睐GPT-5 Pro,其主要错误减少22%,在健康、科学、数学和编程方面表现出色。
来源:3DM游戏网官方