o1 不是聊天模型

B站影视 2025-02-07 14:56 3

摘要:自 o1 于 10 月发布、o1 pro/o3 于 12 月发布以来,许多人都在努力厘清自己的看法,有积极的,也有消极的。在 人们对 o1 Pro 的情绪跌至谷底时,我们采取了一种非常积极的态度,并描绘了 OpenAI 若推出每月 2000 美元的代理产品可能

作者 | Ben Hylak、swyx & Alessio

译者 | 平川

策划 | 褚杏娟

本文最初发布于博客 Latent Space。

自 o1 于 10 月发布、o1 pro/o3 于 12 月发布以来,许多人都在努力厘清自己的看法,有积极的,也有消极的。在 人们对 o1 Pro 的情绪跌至谷底时,我们采取了一种非常积极的态度,并描绘了 OpenAI 若推出每月 2000 美元的代理产品可能需要付出的代价。
我们一直在关注 Ben Hylak 在 Apple VisionOS 方面所做的工作,并邀请他在世界博览会上做了演讲。此后,他推出了 Dawn Analytics,并继续发表关于 o1 的真实想法——最初他是一个响亮的怀疑论者,后来慢慢成为了一名日常用户。两种意义上的 “思想改变者”我们都喜欢,同样的对话正在全世界发生,因为人们正在努力从聊天模式转向崭新的推理世界,以及像 Devin(在世博会上宣布,现在已正式发布)这样的 x00 美元 / 月的专业 AI 产品。以下是我们的想法。

o1 不是聊天模型

我是如何从讨厌 o1 到每天用它来解决最重要的问题的?

我学会了如何使用它。

当 o1 pro 发布时,我毫不犹豫地订阅了。为了证明 200 美元 / 月的价格是合理的,它只需每月提供 1-2 个小时的工程师时间。但是,经过一天的认真尝试,我得出结论:这是个垃圾模型。

每当我提出一个问题,都要等上 5 分钟,而迎接我的却是一堵自相矛盾的大墙,里面还附带着未要求的架构图和优缺点列表。

o1 在回答我的问题时,多次自相矛盾。我在推特上发出了这样的评论,很多人表示赞同,但更有趣的是,有些人强烈反对。事实上,他们对它的出色表现感到震惊。

当然,每次 OpenAI 有发布,人们往往都会大肆炒作。但这次的感觉有所不同——这些评论来自于深入一线的人们。

我与持不同意见的人进行了交谈,越交谈就越是意识到自己完全弄错了:我把 o1 当成了一种聊天模型,但 o1 并不是。

如何使用 o1 ?

如果 o1 不是聊天模型,那它是什么?

我认为它就像一个 “报告生成器”。如果你给它提供足够多的上下文,并告诉它你想要什么,它往往一次就能给出解决方案。

swyx 按语:OpenAI 确实发布了关于提示 o1 的建议,但我们认为那并不完整。从某种意义上说,你可以把这篇文章看作是一本 “缺失的手册”,它提供了在实践中使用 o1 和 o1 pro 的经验。

1. 不要写提示,要写简介

提供大量的上下文信息。不管你是怎么理解“大量”的,提供 10 倍那个量的上下文信息。

当使用 Claude 3.5 Sonnet 或 4o 等聊天模型时,通常你会先提出一个简单的问题和一些上下文信息。如果模型需要更多的上下文,它通常会询问(或者从输出结果中可以明显看出)。

根据 OpenAI 官方文档,对于 OpenAI 模型,将上下文放在末尾更适合

你要来回迭代多次,纠正它并扩展需求,直到得到理想的输出。基本上,聊天模型就是通过这种反反复复的方式从你那里获取上下文信息。随着时间的推移,我们提问题会越来越快、越来越懒——在获得好的输出结果的同时尽可能地懒。

o1 会按字面意思理解懒惰的问题,而不会试图从你那里获取上下文。相反,你需要尽可能多地向 o1 提供上下文信息。

说明你尝试过的所有无效的方法

添加所有数据库 Schema 的完整转储文件

解释你所在的公司是做什么的,规模有多大(并定义公司专用术语)

总之,要把 o1 当新员工对待。注意,o1 的错误包括推理它应该推理多少。有时,差异无法准确地反映任务难度。例如,如果任务非常简单,它往往会无缘无故地陷入推理的兔子洞。注意:o1 API 允许你指定低 / 中 / 高推理难度,但这并不向 ChatGPT 用户公开。

向 o1 提供上下文的小技巧

我建议使用 mac/ 手机上的语音备忘录应用。只需用 1-2 分钟的时间描述整个问题空间,然后将转录文本粘贴进去。

实际上,我有一个便签,里面记录了很长一段可以重复使用的上下文。

swyx:我使用 LS Discord 中由 Sarav 开发的 Careless Whisper。

产品中不断涌现的 AI 助手往往能简化这种提取过程。例如,如果你使用 Supabase,就可以尝试让 Supabase 助手转储 / 描述所有相关的表 /RPC 等。

swyx:我会把开头改为 “在提示方面多提供 10 倍的上下文”

2. 关注目标:事先准确地描述你想要什么,而不是你想怎么做

在给模型提供了尽可能多的上下文之后,接下来的重点是解释希望它输出什么

对于大多数模型,我们接受的培训是,告诉模型我们希望它如何回答我们。例如,“你是一位专家级的软件工程师。慢慢思考,仔细研究。”

这与我成功使用 o1 的方法恰恰相反。我不告诉它怎么做,只告诉它做什么。然后让 o1 接管并规划和解决自己的问题。这就是自主推理的作用,而且实际上,比你 “人工介入”手动审查和聊天要快得多。

来自 swyx 的图解

swyx 的专业建议:为你所认为的 “好 ”与 “坏 ”制定一个非常好的标准,这有助于为模型提供一种评估自身输出和自我改进 / 修正自身错误的方法。从根本上说,你可以将 LLM 作为法官加入到提示符中,让 o1 可以在需要时运行它。

一个额外的好处,最终你可以获得一个 LLM-as-Judge 评估器,当它正式上市时,你就可以将其用于强化微调。

这就要求你 非常清楚自己想要什么(而且你真的应该在每个提示中要求它提供一个特定的输出——它只能在开始时推理)。

听起来比实际做起来要简单。我是想让 o1 在生产中实现一个特定的架构,还是创建一个最小的测试应用,或者只是探索特定选项并列出利弊?这些要求是完全不同的。

通常,o1 默认使用报告式语法解释概念——完全采用带编号的标题和副标题。如果你想跳过解释,输出完整的文件,只需明确说明即可。

自从学会了如何使用 o1,我就被它在第一时间生成正确答案的能力深深震撼了。它确实在各方面都好很多(除了成本 / 延迟)。下面是几个特别突出的小例子。

3. 知道 o1 擅长什么,不擅长什么

以下是 o1 擅长的:

一次性完美地生成整个 / 多个文件:到目前为止,这是 o1 最令人印象深刻的能力。我只需要复制 / 粘贴大量的代码,并说明我正在构建的内容,它就能按照我代码库中现有的模式,一次性地、完整地生成整个(或多个)文件,通常不会出现任何错误。

减少幻觉:总的来说,它更不容易把事情搞混。例如,o1 在处理定制查询语言(如 ClickHouse 和 New Relic)方面非常出色,而 Claude 却经常把 Postgres 的语法搞错。

医疗诊断:我的女朋友是一名皮肤科医生,所以,只要我的朋友或大家庭中的任何人有任何皮肤问题,都会把照片发给她!出于好玩,我开始并行询问 o1。令人震惊的是,通常情况下,它 5 次中有 3 次接近正确答案。对于医学专家来说,这更有用——它几乎总能提供极为准确的鉴别诊断

解释概念:我发现,它非常善于用实例解释高难度的工程概念。几乎就像是生成了整篇文章。在做困难的架构决策时,我经常会让 o1 生成多个方案,并列出每个方案的优缺点,甚至还会对这些方案进行比较。我会将这些回复复制 / 粘贴为 PDF 格式,然后进行比较——几乎就像我在考虑提案一样。

额外的好处:评价。我历来对使用 LLM 作为评价法官持怀疑态度,因为从根本上说,法官模型常常会遇到与最初生成输出时相同的失效模式。然而,o1 却展现出了巨大的潜力——通常,在上下文信息很少的情况下,它就能够判断生成的内容是否正确。

以下是 o1 尚不擅长的:

以特定的口吻 / 风格写作:不,我写这篇博文时没有用 o1 。我发现,它写任何东西都相当糟糕,尤其是用特定的口吻或风格进行写作的时候。它总是倾向于遵循一种非常学术 / 企业报告的风格。我认为,有太多的推理 token 偏向于这种语气,所以它生成的东西很难摆脱这种风格。下面这个例子是我尝试让它写这篇博文——这是经过多次反复之后的——它只想生成一份平淡无奇的学校报告。

构建整个应用:o1 在一次性处理整个文件方面的能力令人惊叹。尽管如此,尽管你可能会在 X 上看到一些比较乐观的演示—— o1 不会为你构建整个 SaaS,至少不会进行大量的迭代。但它几乎可以一次性地完成整个功能,尤其是前端或简单的后端功能。

为报告生成器设计界面

延迟会从根本上改变我们的产品体验。

swyx:我们同意——现在,AI 延迟经常有多达 6 个等级。

考虑一下邮件、电子邮件和短信之间的区别——主要是延迟。语音信息与电话相比——延迟。视频与 Zoom 相比——延迟。诸如此类。

我之所以称 o1 为 “报告生成器”,是因为它显然不是一种聊天模式,感觉更像电子邮件。

这一点并未在 o1 的产品设计中体现。我希望看到这种设计能更真实地反映在界面上。

这里有一些具体的 AI 用户体验建议,供所有基于 o1 开发产品的人参考:

可以方便地查看回复的层次结构(考虑一个 小型的内容目录

类似地,使层次结构更易于浏览。由于每个请求通常都大于窗口的高度,我会采取类似 Perplexity 的方法,即每个问题 / 答案页面占一个部分,而不是自由滚动。在一个答案中,粘性页眉、可折叠页眉等都会很有帮助。)

可以方便地管理和查看你为模型提供的上下文信息。(颇具讽刺意味的是,Claude 的用户界面在这方面做得更好——当你粘贴一段长文本时,它会以一个小附件的形式呈现)。我还发现, ChatGPT 项目不像 Claude 项目那么好用,所以我经常复制和粘贴东西。

题外话:

另外,当涉及到 o1 时,ChatGPT 的 bug 非常多。推理描述非常滑稽,经常完全无法生成,而且,在手机应用上也经常无法使用。

Kenya 的美好一天 ?

未来展望

我非常期待看到这些模型的实际应用。

我认为 o1 将使某些产品首次成为可能——例如,可以从高延迟、长时间运行的后台智能中受益的产品。

用户愿意为什么样的任务等待 5 分钟?一小时?一天?3-5 个工作日?我认为,如果设计得当,会有很多。

随着模型越来越昂贵,实验的合理性变得越来越难以证明。在短短几分钟内浪费数千美元比以往任何时候都要容易。

o1-preview 和 o1-mini 支持流式处理,但不支持结构化生成或系统提示。o1 支持结构化生成和系统提示,但不支持流式处理。

考虑到响应所需的时间,流式处理似乎是一个必要条件。

随着 2025 年的到来,我们将看到开发人员如何使用该模型,这将是一件很酷的事情。

原文链接:

声明:本文为 InfoQ 翻译,未经许可禁止转载。

今日好文推荐

苹果开始“拯救”Swift ?突然开源百万 App 在用的 Swift Build,迈出推动跨平台一致性的关键一步

10年了,开发人员仍然不明白 Electron 的意义

OpenAI“背水一战”:紧急上线Deep Research,比DeepSeek强三倍?网友直呼AI开源大战要来了!

被DeepSeek逼急了!OpenAI深夜祭出最新轻量级o3-Mini:具备人类思考能力,还提供免费 ChatGPT 版本

来源:极客邦科技

相关推荐