摘要:①满血(正式版)o1 模型正式上线;② 可无限使用o1 模型的Pro 订阅计划,开启!
今天凌晨,OpenAI 开启 12 月直播的第一天,直接抛出两大更新:
① 满血(正式版)o1 模型正式上线;
② 可无限使用 o1 模型的 Pro 订阅计划,开启!
接下来,我们为大家详细介绍这两大更新。
满血 o1 模型
相比于 preview 版本,满血(正式版) o1 模型无疑更为强大:
√ 满血 o1 在数学、代码和博士级科学问题上,获得大幅提升;
√ 满血版模型推理速度更快,比 preview 快了 60%;
√ 满血 o1 增加了多模态推理功能。
要知道,在推理能力上,o1-preview 已经是迄今为止的最强模型,而满血 o1,则更进一步!
具体的差别,我们看一下官方演示:
首先,满血版 o1(左)和 o1-preview(右)现场竞速↓
同一个问题:列出二世纪的罗马皇帝,包括他们的统治时期和成就。
满血 o1 耗时 14 秒完成作答;
o1-preview 耗时 33 秒完成作答。
综合团队多次离线测试,最终得出结论:满血 o1 平均响应速度比 o1-preview 快 60%。
同时,经过一整套人类评估测试,OpenAI 团队还发现:满血版 o1 在推理时犯重大错误的频率比 o1-preview 少了34%。
满血 o1 的另一大亮点是:支持多模态输入,具备视觉推理能力,OpenAI 团队也进行了现场展示↓
他们拿出一张画着数据中心草图的 A4 纸,拍照上传后开启测试。提示词翻译后如下↓
“这里展示了一个高度简化的太空数据中心示意图。对于任何简化的假设,请提供理由。
”你的任务是估算这个托管GPU的数据中心所需的散热器表面积的下限。在此过程中,还需要回答以下问题:
“你如何处理太阳和深空?
”热力学第一定律如何发挥作用?“
仅仅 10 秒钟,o1 就给出了答案。
测试时:OpenAI 团队特意给 o1 模型挖了个坑——故意省略了其中一个参数,以此来测试模型面对模糊问题的处理能力。
令人惊艳的是,满血 o1 不仅选择了正确的参数范围,还通过进一步的细致论证最终找出了准确参数。
Pro 订阅计划
Pro 计划是 OpenAI 在 Plus 计划基础上的一个升级版本,给人的第一个感觉是——贵!
最新的 Pro 权限需要支付 200美元/月,折合成人民币需要 1450元/月。
我们具体来看一下 Pro 计划有哪些特色功能:
① Pro 计划可以无限制访问 OpenAI o1、o1-mini、GPT-4o 和 Advanced Voice;
② Pro 计划有一个专属模型——o1 pro。
o1 pro 使用更多的计算来更深入地思考,并为最困难的问题提供更好的答案。
如果使用更严格的测试标准,模型必须在4次回答中每一次都回答正确,而不仅仅是答对一次。
那么 o1 Pro 模式的性能更恐怖,在数学方面是 o1-preview 的一倍,代码是其 2 倍。
接下来 OpenAI 还有 11 天的直播,我们也会持续分享。
最值得期待的 GPT-5 猎户座会放出来吗?让我们拭目以待。
来源:运营黑客