GPT-5发布会频翻车,演讲PPT被疑AI生成?

B站影视 日本电影 2025-08-08 21:04 1

摘要:时光回溯到四年前,ChatGPT犹如一颗耀眼的新星,突然出现在大众视野中,它的出现为人们开启了对机器思考的全新想象空间。

模型发布详情


时光回溯到四年前,ChatGPT犹如一颗耀眼的新星,突然出现在大众视野中,它的出现为人们开启了对机器思考的全新想象空间。

此次,OpenAI首席执行官山姆·奥特曼在直播中多次强调:“ChatGPT5是截至目前我们所研发出的最智能、运行速度最快且实用性最强的模型。”

发布会结束后,GPT-5迅速面向所有Plus、Pro、团队用户以及免费用户开放。

而企业和教育版用户也将在一周内陆续获得访问权限。

不过,ChatGPT免费用户若想完全使用其完整的推理功能,可能还需耐心等待几天。

内化深度推理与自动路由机制

正如之前大家所猜测的那样,GPT-5采用了集成模型。

这意味着用户在使用时无需手动去选择模型,只需向其提供提示词,它就能自动调用所需的模型,并自主判断何时进行深度思考。

GPT-5拥有三种不同类型的模型,分别是能够解答大多数常见问题的智能高效模型、专门解决复杂问题的深层次推理模型,以及一个实时路由器。

这个实时路由器会根据对话的类型、复杂程度、工具需求以及用户的意图,精准地选择合适的模型。

在实际使用过程中,GPT-5回答问题的速度相较于前几代模型有了显著提升。

同时,它在减少幻觉、提高指令执行能力以及避免过度谄媚等方面也取得了长足的进步。

官方数据显示,GPT-5产生幻觉的可能性大幅降低。

在网页搜索场景中,它出现包含事实错误响应的可能性比GPT-4o降低了约45%;在思考过程中,这一比例相较于o3降低了约80%。

编程、写作、健康领域全面升级

此次GPT-5在写作、编程和健康领域均实现了重大突破。

在写作方面,它的表现比GPT-4o更加出色。

GPT-5写出的文字更加流畅、自然,在处理诗词韵脚时也更加得心应手。

为了更直观地感受两者的差异,我们可以举个例子。

当给两个模型下达“写一首能引起情感共鸣的短诗,内容是关于京都的一位妇人总是在奇怪的地方发现她已故丈夫的袜子”这样的提示词时,GPT-5创作的诗歌更具人类写作的风格,没有那些象征AI写作的“破折号”。

而GPT-4o写出的诗则充满了“AI味”,为了押韵使用了一些不符合语境的词汇,并且满是破折号,标点符号的使用也十分混乱。

编程能力无疑是此次更新的重中之重。

在发布会上,OpenAI研究员现场进行了精彩展示。

只需给GPT-5一个指令,它便能在一两分钟内创建出美观且响应迅速的网站、应用程序和游戏。

例如,仅仅给出一句话指令,它就能生成复杂、可交互的伯努利效应动态SVG演示,还能帮助用户搭建学外语的网站,甚至在几分钟内就能创建出小游戏,完全无需用户具备编程知识。

GPT-5在关键编码基准测试中表现卓越,处于行业领先地位。

在SWE-bench验证测试中,它的得分达到了74.9%;在Aiderpolyglot测试中,得分更是高达88%。

在智能体方面,它同样表现出色。

在工具调用基准测试τ2-benchTelecom中,以96.7%的优异成绩刷新了主流水平;在事实准确性基准测试LongFact和FActScore中,其错误率仅为o3的五分之一。

此外,API还引入了全新功能,开发人员能够对模型的回复进行更精准的控制,同时新增了自定义工具,使得GPT-5能够使用纯文本而非JSON来调用工具。

GPT-5的API确定将发布三个版本,分别是GPT-5、GPT-5-mini和GPT-5-nano,开发人员可以根据自身需求在性能、成本和延迟之间进行灵活权衡。

在一些测试中,GPT-5的得分显著提升,输出令牌数量和工具调用次数减少,错误率也大幅降低。

在学术和人工评估基准测试中,它在数学、编码、视觉感知和健康领域的分数同样十分亮眼,在数学AIME2025测试中得分94.6%、多模态理解MMMU得分84.2%、健康HealthBenchHard得分46.2%,均创下了历史新高。

发布会中的小插曲

在发布会期间,搜狐科技敏锐地发现了一个问题。

SWEbenchmark的图表中,数值和柱状图大小的对应关系出现了错误。

其中,数值为52.8的柱状图竟然比中间数值为69.1的柱状图还要高,而最右边数值为30.8的柱状图高度竟然与69.1的柱状图相同。

这一情况引发了不少网友的调侃,大家纷纷表示希望这张图表不是由GPT-5制作的。

发布会结束后,官网博客上的图表很快得到了修正。

图片上传处理中...

然而,类似的错误并非仅此一处。

有细心的网友还发现,编程欺骗测试柱状图中,数值为50的柱状图高度反而低于数值为47.7的柱状图。


来源:金融前沿阵地

相关推荐