他在 10 天内拼出 ChatGPT,如今影响 7 亿人:ChatGPT 负责人的第一次讲述

B站影视 港台电影 2025-10-10 17:36 1

摘要:从一个黑客马拉松里的临时代码库,到史上增长最快的消费级软件,ChatGPT 的崛起堪称一段科技传奇。三年前,OpenAI 产品负责人 Nick Turley 与几位同事在短短 10 天内拼出了最初的雏形,本以为只是个小实验,却意外点燃了全球。如今,ChatGP

编译 | 宇琪、Tina

从一个黑客马拉松里的临时代码库,到史上增长最快的消费级软件,ChatGPT 的崛起堪称一段科技传奇。三年前,OpenAI 产品负责人 Nick Turley 与几位同事在短短 10 天内拼出了最初的雏形,本以为只是个小实验,却意外点燃了全球。如今,ChatGPT 每周的活跃用户已超过 7 亿,相当于全球 10% 的人口,月留存率高达 90%,远超大多数互联网应用。它不仅重塑了人们搜索、写作、编程的方式,也为 OpenAI 带来了数十亿美元的收入,开创出一个全新品类。

一直以来,Nick 都极为低调,这是他第一次在播客节目中分享幕后故事。在这次对话里,他罕见地回顾了 ChatGPT 的起点:从 Sam Altman 当年随手发出的那条推文,到团队内部强调“最大化加速”的文化;从 ChatGPT 仍处于“MS-DOS 阶段”的早期形态,到如今逐步走向“超级助手”的长期愿景——一个能理解用户背景、伴随成长、真正帮你解决实际问题的 AI。

以下为本期播客的亮点与完整翻译:

我们的目标是打造一个超级助手。最初它只是一个黑客马拉松的代码库。当时它叫什么来着?原本打算叫“Chat with GPT-3.5”,因为我们真的没觉得它会成为一个成功的产品。后来 Sam Altman 就说:“嘿,让我发条推文吧。” 这在 AI 领域是个常见模式——在你真正发布之前,你永远不知道哪些地方值得打磨。我理想中的状态是我们能做到每天发布更新。

你的 CPO Kevin Weil 曾说过一句原则性的话:“它的加速度够极致了吗?” 我常常直接跳到重点——“我们为什么不能现在就做到?” 我一直觉得我的角色之一就是设定节奏和“静息心率”。

大家总在问:“Chat 是这一切的未来形态吗?” 当时推出 Chat,是因为它是最简单的交付方式。我至今对它的爆发性感到困惑,更困惑的是这么多人选择去模仿它。

现在,ChatGPT 为我的新闻通讯带来的流量比 Twitter 还多。这是一种极强的留存能力。

至于长期愿景,ChatGPT 现在有点像 MS-DOS,我们还没造出“Windows”,但等我们做出来时,一定会非常显而易见。

GPT-5 发布

Lenny:能不能用最简单的方式介绍一下 GPT-5?

Nick:对于大多数人来说,GPT-5 会是一种“质的飞跃”。它是我们发布过的最聪明、最有用、最快的前沿模型。单就“聪明”而言,无论是数学、推理还是综合智能,在很多标准学术基准测试上,它都是最先进的。我尤其兴奋的是它在编程方面的表现,无论是 SWE-bench 这样的常用测试,还是前端编码,它的表现都非常出色。

不管你是有编码问题,还是在“vibe coding(氛围编程)”一个应用,它都能帮忙;同时,它还是一个非常出色的写作者,相比旧模型,它更有“taste(品味)”;它在医疗健康等领域也是业界最强。但最难用案例或数据表达的是它的“vibes(气质)”,它就是更有生命力,更像人类,这种感觉你只有用过才懂。

此外,它也更快。它会像 o3 那样“思考”,但不需要你手动要求,它会在需要时动态思考,在不需要时则立即响应,这让它的速度比 o3 体验更快。最让我兴奋的是,我们会免费提供它。这是 OpenAI 的一个独特之处。很多公司可能会把它放在付费计划里,而我们只要能扩展,就会开放给所有人。

至于它的研发时间,这其实很难有一个确切的起点。GPT-5 是多个方向努力的结晶,包括推理技术、更传统的后处理方法等。它是很多早期技术路线的汇合点,所以很难说从哪一天算开始,但可以说它是长期积累的结果。

关于 ChatGPT 和 AI 助手的愿景 **

Lenny:ChatGPT 以及整个 GPT 发展到现在,好像一直都是同一个想法,只是“脑子”越来越聪明,我很好奇它的长期发展方向会是怎样。

Nick:目前全世界大约有 10% 的人口每周都在使用 ChatGPT,现在大概有 500 万企业用户,它已经成为一个独立的成熟品类。但实际上,我们最初的目标是打造一个“超级助手”。事实上,我们用的代码库就叫 SA Server(Super Assistant Server),本来只是个 hackathon(黑客松)项目的代码库,但事情总是会发展得有点出乎意料。

所以,从某种意义上讲,这个愿景一直没有变。我之所以没有经常谈它,是因为我觉得“助手”这个概念在我们要建立的思维模型里有点局限。人们会想到一个拟人化的工具,也许很实用,但其实对大多数人来说,“拥有一个助手”并不是特别有共鸣的体验,除非你在硅谷做管理之类的工作。

我们真正设想的是一种可以在任何场景帮助你完成任何任务的存在。不同于现在的 ChatGPT,你不需要详细描述你的问题,因为它已经了解你的生活背景等信息,理解你的总体目标。同时,我们也希望它拥有更大的行动空间,我们很期待让它能做成一位拥有电脑的聪明且有同理心的人所能为你做的事情。

我有时会想:“假设我是一个通用智能,要是我成了 Lenny 的实习生会怎样?”即便我具备前面提到的能力,我可能依然不算高效,这是因为我们还需要和这种技术建立关系。所以,我兴奋的第三个方向,就是打造一种真正能随着时间了解你的产品。今年早些时候我们推出了改进版的“记忆”功能,这只是开始,我们希望最终让它真正让人觉得“这是我自己的 AI”。我们可以把它放进每个人的口袋里,帮他们解决实际问题,不管是变得更健康、创业,还是希望在任何事情上得到一个“第二意见”,而这就是我的动力。

Lenny:这里有个很重要的点:这个愿景是做人的助手,而不是取代人。

Nick:AI 对很多人来说很可怕,这我能理解。哪怕只看今天的技术,很多人都会经历这样一个时刻:AI 做了某件事,而你原本觉得它永远做不到,这种体验自然会让人害怕。

所以,我们一直以来非常重视的一点,就是让你始终感觉 AI 是在帮助你,而你永远坐在主驾上。有时这是很小的细节,比如我们构建了一个可以“看到 AI 在代理模式下做什么”的界面——虽然你未必会一直盯着它看,但这会给你一个心智模型,让你觉得自己在掌控之中,就像坐 Waymo 自动驾驶车时看到那个显示屏,不是为了让你一直盯着,而是让你知道它在做什么。还有比如我们总是会在关键步骤征求你的确认,这就是为什么我们一直把自己构建的技术看作是放大你的能力的东西,而不是替代品。随着技术越来越强大,这一点尤其重要。

ChatGPT 的早期故事

Lenny:你加入 OpenAI 时,ChatGPT 只是一个内部的实验项目,本质上是用来测试 GPT-3.5 的。然后 Sam Altman 就说:“嘿,我发个推特看看大家有没有兴趣。”然后,结果就成了历史上增长速度和营收最快的消费级产品。能不能带我们看看它在走红前的那段时间?

Nick:我们大概是在 GPT-4 训练完成前后,决定要做一些面向消费者的东西。当时我们已经有一个开发者产品,这其实是我最初加入公司时要帮忙做的,现在它已经发展成了有 400 万开发者的 OpenAI 平台。但那时候还处于早期阶段,我们遇到了两个问题:

第一,每次改模型都会把大家的应用弄坏,所以无法快速迭代。第二,学习速度很慢,因为反馈路径是终端用户 → 开发者 → 我们,信息非常间接。而我们又很想快速向 AGI 推进,所以需要和消费者有更直接的关系。于是我们开始想,应该从哪里切入。按照当时 OpenAI 的经典作风,我们搞了个 hackathon ,找一群热心人用 GPT-4 乱做实验,看能做出什么酷东西能直接发给用户。

当时大家的想法几乎都是某种“超级助手”的变体。比如有人做了一个会议机器人,有人做了一个编程工具。问题是,每次我们测试这些定制化的东西,大家总是想用它来做别的事,因为这项技术本质上就非常通用。于是经过几个月的原型测试,我们带着同一批志愿者,组建了最初的 ChatGPT 团队。最后我们决定直接做一个开放式的产品,因为我们需要尽快获得真实的使用数据。这在 AI 领域很常见,必须先上线,才能知道到底能做什么、用户想要什么,而不是事先推测。

于是 ChatGPT 就在这样的背景下诞生了。我们赶在假期前上线,本来想着回来收集数据后就关掉。结果,人们居然很喜欢这个产品。我记得当时的心路历程是: “啊,控制面板又坏了。”“等等,大家好像挺喜欢的,不过肯定是暂时的热度。”然后发现,“哇,人们在持续使用它,但我还不太明白为什么。”最后我们就转入了真正的产品开发模式——而且这一切多少有点是意外发生的。

Lenny:我之前不知道 ChatGPT 是脱胎于一个 hackathon 项目,这绝对是最成功的 hackathon 项目了。

Nick:我们在内部搞 hackathon 时,我总喜欢讲这个故事,因为我真心希望人们能感受到他们的想法是可以落地的。过去确实如此,未来我们也会继续让它成真。

Lenny:我很好奇当初那个团队里有谁。

Nick:实际上,一些正在研究 GPT-5 的研究员,从一开始就是 ChatGPT 团队的成员。工程师们还在,设计师们也还在,我也还在这儿。核心团队仍然在掌舵,但显然,我们规模已经巨幅扩张了,也必须如此,因为规模带来责任。我们即将迎来十亿用户,必须开始以符合这种规模的方式行事。

Lenny:我相信 ChatGPT 是有史以来增长最快、最成功的消费级产品。同时,也是对人们生活影响最深远的,感觉它现在已经是社会基础的一部分了。我妻子就经常说“让我问问 ChatGPT”。它现在已经成为我们生活中如此重要的一部分,而且我认为这还是早期阶段。作为领导者,你是否曾停下来反思一下?

Nick:我必须这样做,我经常得掐自己一下确认不是做梦。有时我也得退后一步,认真思考。我喜欢在公司设定一个快节奏,但为了能有信心地做到这一点,我每周至少需要有一天完全脱离工作,只思考该做什么,梳理一周的事务等等。

另一件事是,我从未做过一款本质上如此依赖实证的产品。如果你不停下来观察、倾听人们在做什么,你会错过很多东西,无论是关于它的实用性还是风险。通常,当你发布一款产品时,你知道它能做什么。但有了 AI,我认为其中很多东西是涌现出来的,你真的需要在发布后停下来倾听,然后根据人们尝试做的事情以及那些尚未完全奏效的地方进行迭代。

Lenny:所以你每周休息一天… 不,这么说不太准确。你是安排一天进行深度思考、工作的时间。

Nick:我需要在一个星期六之类的时间彻底断开连接,这三年来一直是一场巨大的马拉松。

Lenny:像一场冲刺马拉松。

Nick:没错,或者像间歇训练之类的。我不太确切知道如何描述 OpenAI 的发布节奏,但你必须让自己处于一种可持续的状态。

产品发展和迭代

Lenny:我和几位在 OpenAI 与你共事的同事聊过。Joanne 特别提到,紧迫感和节奏是你运作方式的重要组成部分,你认为在团队中持续创造紧迫感至关重要,即使你们已经是历史上增长最快、疯狂增长的产品。谈谈你对团队节奏和紧迫感重要性的哲学吧。

Nick:关于 ChatGPT,当我们决定要做它时,我们已经做了很长时间的原型,我当时就说:“10 天内,我们要发布这个东西。”我们做到了。从那以后,我花了很多时间思考为什么 ChatGPT 最初能成功。我认为某种程度上是因为我们做了出来,而当时许多其他公司在 LLM 领域虽然有技术,但从未发布。我当时就觉得,在所有我们可以优化的因素中,尽可能快地学习是极其重要的。

于是我开始围绕这一点动员大家。有一段时间,我每天主持发布同步会,要求所有需要做决策的人都参加,我们会讨论该做什么,以及如何根据昨天的情况进行调整等等。显然,到了一定规模后,这种方式行不通了。但我一直觉得,我在这里的角色的一部分,除了思考产品的方向,也包括设定团队的节奏和“resting heartbeat(静息心率)”。要了解人们喜欢什么、什么有价值,唯一的方法就是将其带入外部世界。

Lenny:我喜欢“resting heartbeat” 这个短语,这真是个完美的比喻。

Nick:我其实是在 Instacart 工作时学到这点的。当时正值疫情期间,大家全力以赴。有一段时间,我们甚至取消了所有团队划分,开公司级别的站会,只是为了维持网站运行。对我来说,我过去习惯于花足够的时间仔细思考,但我在那里真的学会了拼速度,我想这在 OpenAI 派上了用场。

Lenny:我问了你们的产品负责人 Kevin Weil 该问你什么,他说要问你关于“Is it maximally accelerated?(是否最大化加速了?)”这个原则。

Nick:有时我真的很想直奔主题,比如“好吧,为什么我们现在不能做这个?”或者“为什么不能明天就做?”。我认为这是排除团队中大量障碍的好方法,并能灌输一种意识,尤其是对于那些来自大公司的人。有段时间,我们开始从大型科技公司招聘人才。我想他们习惯了“我们下周再碰头讨论这个”或者“下个季度我们再回来看计划”。而我,作为一种思维练习,总是喜欢问:“如果这是最重要的事情,你希望真正地最大化加速它,你会怎么做?”这能让你理解什么是关键路径,什么可以以后再做。

Lenny:所以你们的文化是,当有人在处理某事时,大家会追问:这最大化加速了吗?有没有办法做得更快?有没有什么我们能解开的阻碍?

Nick:是的。有些事情你不想尽可能快地加速,因为你确实需要流程。我们在这一点上非常谨慎,将流程视为一种工具。而我们在一个领域有极其繁复的流程,那就是安全。首先,风险已经非常高,特别是像 GPT-5 这样的前沿模型,它在很多方面都是未知领域。

其次,如果你相信指数级增长,你必须为那个真正需要流程的时刻做好准备。这就是为什么我认为将产品开发速度与前沿模型的发布流程分开非常重要。对于后者,确实需要一个严格的流程:进行红队测试、编写系统卡、获取外部意见,然后才能带着它已经通过必要安全防护的信心发布出去。

Lenny:ChatGPT 不仅是有史以来增长最快、最成功的消费产品,它的用户留存率也高得惊人。有人分享过数据,说它的月留存率大约是 90%,六个月留存率大约是 80%。这些数字准确吗?

Nick:我们的留存率数据确实令人兴奋,而且这实际上是我们最关注的指标。我们一点也不在乎用户在产品上花了多少时间,我们的动机只是解决你的问题,如果你真的喜欢这个产品,你就会订阅,但我们没有任何让你在产品里停留更久的动机。

对我来说,这一直是早期的一个“房间里的大象”也就是说,“这可能是个很酷的产品,但它真的是那种你会反复回来使用的东西吗?”而现在不仅看到很高的留存率,还看到留存率随着时间的推移有所提升,即使我们的用户群体从早期采用者逐渐转向更普通的用户群体,依然如此,这令人难以置信。

Lenny:一个产品新发布,用户试用一下,然后留存率下降,再过一段时间人们又回来,使用频率反而增加,这种情况被称为“微笑曲线”,极为少见。

Nick:是的,团队里也确实有人在笑。我觉得有一部分原因甚至不是产品本身,而是人们正在以一种非常有趣的方式逐渐习惯这项技术。这也是为什么产品需要不断演化,“将任务委托给 AI”这个想法对大多数人来说并不自然,并不是说你在生活中会不断想“我能把什么委托出去?”某些硅谷圈子的人会这么做,因为他们处于自我优化模式,想把一切能委托的事情都委托出去。

你需要先弄清楚,“好吧,我的目标到底是什么?另一种智能能帮我做些什么?”我认为这需要时间,但人们在有足够时间使用产品后会逐渐摸索出来。当然,我们在产品上也做了很多改进,无论是让核心模型变得更好,还是加入新功能,比如搜索和个性化等等。

Lenny:有人可能会说,“你们是在这个‘类神级智能’之上构建了一层产品,当然会增长得极快,留存也会非常高。”那你们在模型之上到底做了些什么,让它增长和留存都这么好?

Nick:我们在 ChatGPT 上学到的一点是,模型和产品之间没有明确界限——模型就是产品,因此你需要像对待产品一样迭代它。通常你会先发布一个非常开放式的版本,但之后你必须认真去看,人们到底在尝试做什么?他们在写作、写代码、寻求建议、找推荐……然后你需要系统性地改进这些用例。这与产品开发的工作非常相似,方法论稍有不同,但探索的过程是一样的:你需要和人交流,需要做数据分析,需要尝试并获得反馈。所以,这是我们非常有意识地在做的一类工作:针对人们关心的用例改进模型。

还有一种我们称之为“vibes”的东西,我对 GPT-5 很兴奋的原因之一就是它的 vibes 非常好。我们有一个“模型行为团队”,专门关注模型的性格和交流方式。这类工作我觉得大约占到留存提升的三分之一左右。

另一个三分之一是“面向产品的研究型能力”。比如搜索,大约 20 个月前,你和 ChatGPT 对话,它会说“根据我知识的截止日期……”或者“我无法回答,因为这件事发生得太近了”等等。而这种功能的加入,对留存有极大帮助,因为它让你能用产品做更多事情。个性化也是如此,比如“高级记忆”,让它随着时间的推移真正了解你。

最后三分之一就是任何产品都会做的传统产品工作。比如“不需要登录”这个改动,就极大减少了摩擦。我们从一开始就有这种直觉,但之前没做是因为 GPU 不够或者有其他限制。

所以我常常把它看作是大致的“三分之一 + 三分之一 + 三分之一”组合,但我们依然在学习,也计划让产品不断演化,这也是为什么我相信未来还会有新的增长杠杆。

Lenny:你刚刚说从 hackathon 到 Sam 发推说 ChatGPT 上线,大概只有 10 天?

Nick:hackathon 实际上发生得更早,我们原型开发了很长时间,但某个时刻我们对继续做更定制化的东西失去了耐心——主要是因为每次测试,人们总是想做很多其他事情。所以是从我们决定要发布,到真正发布,中间大约 10 天。

研究部分我们测试了很久,这其实是我们之前叫“指令跟随(instruction following)”的演化。意思是,这些模型不仅仅能补全句子,还能按照你的指令去做,比如你说“总结这个”,它就会真的去总结。后来研究演化成了多轮对话的聊天形式。这部分研究花了远不止 10 天时间,但产品化的过程非常快,很多东西都没来得及做进去。

我记得我们最初甚至没有“历史记录”功能,这是收到的第一个用户反馈,但能对模型进行迭代是非常酷的事。在 ChatGPT 之前,我们没有“把模型当作产品”的概念,因为我们过去的节奏是:发布 GPT-3 这种大型版本,然后马上开始做 GPT-4,这些庞大的研发项目耗时很长,规格定下后就得再等一年。而 ChatGPT 打破了这一点,我们能像做软件一样迭代改进模型。我的梦想是像软件领域那样,可以每天甚至每小时更新,因为这样可以立刻修复问题等等。当然,这里面也有很多挑战,比如如何保持模型性格不变、避免其他能力退化等等。

聊天界面的未来

Lenny:Kevin Weil 说过一句话:聊天其实是构建在超级智能之上的天才界面,因为这是我们与各种智力水平的人类交互的方式,它的可扩展性非常强,从低智到高智都能用,所以它是一个覆盖整个谱系的好方式。你觉得聊天(chat)是不是 ChatGPT 的长期界面?

Nick:我觉得我们要么砍掉“chat”,要么砍掉“GPT”,这个名字太拗口了,不过我们已经被这个名字绑住了。不管怎样,产品会不断演化。我同意自然语言有着非常深刻的意义,它确实是人类最自然的交流方式,因此你和软件的交流也应该是自然语言的。

但我认为这和聊天是两回事,聊天只是当时最简单的发布方式。我很惊讶它作为一个概念竟然火成这样,更惊讶的是有那么多人直接照搬这种交互模式,而不是尝试新的 AI 交互方式。我依然希望看到更多变化。

所以我认为自然语言会长期存在,但不一定非得是“一问一答”的聊天形式。我不喜欢“超级系统”的比喻,因为如果这么想,你会觉得自己在和一个人对话。但 GPT-5 非常擅长做优秀的前端应用,所以我不认为没有理由让 AI 以某种方式自己渲染 UI。当然,你需要保证它可预测且体验良好。但如果把“聊天机器人”视为终极交互方式,这在我看来甚至有点反乌托邦,我不想所有软件都通过某个界面代理来用。

所以我的观点是:自然语言“是”,聊天形式“不一定”。我希望能看到更多用户交互创新,因为可能性太多了,你得去试。聊天之所以流行,是因为我们当时做了,人们也喜欢。我希望未来会有更多尝试,我们也会贡献力量。

ChatGPT 的演化

Lenny:你们早期有没有什么偶然的决定,却意外地产生了改变历史的影响?

Nick:太多了。比如名字,我们原本叫“Chat with GPT-3.5”,就在发布前一晚改成了 ChatGPT。当时我们真的不觉得它会成功,想尽可能“宅”一点,因为它本质上只是一个研究演示,不是产品,所以我们觉得这个名字没什么问题。

我觉得最初让它免费是个大事,我们当时没有意识到这有多重要。GPT-3.5 模型在我们的 API 里已经上线至少六个月了,我认为任何人都能做出类似的东西,可能模型效果没那么好,但依然会火。所以免费发布、加一个好用的 UI,这个决定很关键。

这也是我为什么认为,即便到了 2025 年,分发(distribution)和界面(interface)依然非常重要。付费业务如今在消费端和企业端都是巨大的收入来源,但它的起源只是为了筛掉需求。当时我们并不是在想“什么是最好的 AI 变现模式”,而是想找一种机制,把那些没那么认真使用的人挡在外面,而订阅恰好符合这个条件,后来它自然成长为一个大业务。

另外,我们会在功能还不完善的时候先发布,这本来是个战术决定,后来却成了我们的“打法”,因为能学到很多东西。比如我们发布“Code Interpreter(代码解释器)”的时候,收获了大量真实用例,后来我们才能优化它。

订阅模式和定价策略

Lenny:每月 20 美元的价格感觉是个很重要的部分。现在好像所有人都在这么做。

Nick:其实我记得当时我有点恐慌,因为我们真的需要推出订阅服务。我记得我打电话给一个我非常尊敬、在定价方面特别厉害的人,我问他:“我该怎么做?”我们聊了很久,但我根本没有时间去采纳他的大部分反馈。我清楚地记得第二天早上就有一篇新闻报道说:“你绝对想不到,ChatGPT 团队用来定价的四个天才问题。”我当时想,如果你知道真相就好了。

在这样高度公开的环境里做产品,有一个特点,就是人们会对你的行为解读出比实际更多的深思熟虑。当时我们其实在讨论一个稍微高一点的价格。我有时会想,如果当时真的定高一点,会发生什么,因为很多其他公司后来都复制了这个 20 美元的定价。所以我会想,“我们是不是因为这样而让市场少了很多市值?”但最终我不在乎,因为让更多人用得起这些东西才是更重要的。而且我觉得这个价格在西方国家对很多人来说都是合理的。更重要的是,我们能够定期把一些功能下放到免费版本,而且我们一有机会就会这么做。

Lenny:不管这个价格是对是错,它现在已经成了全球增长最快、收入最疯狂的业务之一。而且顺便说一句,我用的是每月 200 美元的套餐,所以显然还有空间。

Nick:其实这个 200 美元套餐的故事也很有意思。最初 Plus 套餐的目的,是先保证更好的稳定性,然后再提供一些我们没法扩展给所有人的功能。但后来 Plus 用户太多,这个特性就没了。所以我们推出 200 美元套餐的主要原因,是我们手上有很多非常强大的研究成果,比如 o3 Pro,或者未来的 GPT-5 Pro,我们需要一个渠道把这些功能提供给真正非常在意的人。虽然这有点违背标准 SaaS 定价页的设计原则,突然跳 10 倍价格会让人觉得奇怪,但能有这样的用户群很让人兴奋。

企业用户的采用与挑战

Lenny:你刚刚分享了 Chat with GPT-3.5 这个原始名字的故事,还有定价的故事。还有别的吗?

Nick:企业市场也是一个有趣的例子,故事是这样的:在第一个月或第二个月,我们就很明显地发现,大部分使用其实是工作场景的使用,甚至比今天还多。而且我们很快就在 90% 的财富 500 强公司里实现了自然渗透,后来也有更多 PLG(产品驱动增长)公司出现。但我们做企业版的真正原因,是因为我们开始在一些公司里被封禁,他们觉得我们的隐私和部署方案还不够成熟。所以我当时就想:“我们必须做点什么,否则会错过打造工作产品的世代机会。”而且我们在定义 AGI 时,就说是要在经济上有价值的工作中超越大多数人类,所以我觉得我们必须在企业领域有存在感。

平衡多条产品线

Lenny:你有没有什么经验法则,能让你在同时处理这么多业务的情况下保持理智并取得成功?

Nick:首先,我现在不负责开发者相关的东西了,我依然负责各种形式的聊天产品,但幸运的是,我不用去做那种权衡,这让我保持了相对理智。

在构建这些 AI 产品时,你得从两个不同的角度去优先排序。第一是从模型能力倒推,这更多是艺术而非科学。你需要真正看看我们拥有什么技术,以及如何以最棒的方式将其产品化。如果用某种产品经理框架去做,那可能会大错特错。

举例来说,比如 GPT-5 在前端编码方面非常出色,这意味着你必须重新优先考虑如何真正将这项能力变为现实。也许是让聊天机器人更擅长进行代码创作和应用渲染,也许是利用模型的“品味”让用户界面更具表现力。我们有很多方向可以尝试,但你得重新规划和重新排序,这比任何特定的用户细分都重要。语音也是类似的情况。并不是我们的客户急切需要语音,或者在乞求它,而是我们发现了一种方法,可以实现“任何输入,任何输出”,然后思考如何将其以创新且酷炫的方式产品化,接着观察用户如何使用。

另一方面则更像是传统的产品管理,需要倾听客户反馈。当你的客户群体非常多样时,这会令人困惑。比如 ChatGPT 是一个非常通用的产品。我们观察终端用户时,发现他们的需求其实高度重合,比如项目管理、历史记录、搜索、共享、协作等原语功能,不论是职场用户还是家庭和学校用户,这些机制有细微差别,但本质类似。我们认为这些领域的投资能带来较大收益。同时还有企业特定的需求,比如 HIPAA 合规、SOC 2 认证等,如果想成为严肃的市场玩家,这些都是必须完成且不可谈判的事情。

我在 OpenAI 很尊敬的一个人曾用一个比喻,说我们有点像迪士尼。迪士尼拥有一个核心创意知识产权——他们的内容,同时还做游轮、主题公园、漫画等各种业务。我们有出色的模型,但可以用多种不同方式将其产品化,我们得最大化各种产品形态的影响力。

Lenny:我想到通常那些非常通用的横向平台,需要很长时间才能起飞,因为人们不知道该怎么用它们,它们在某方面都不够优秀。而你们则是一个反例,几乎立刻起飞,大家很快摸索出用法,且随着时间推移越来越多地被发掘。

Nick:原因之一就是我们上线的方式。谈一个重要的决策:我们当时是否要“排队候选名单”——我们知道工程系统无法规模化支撑,因此最终决定不排队。没有候选名单,这也很关键,因为你能实时看到其他人都在做什么。上线给所有人使用时,确实有一种特别的时刻,让你能观察并学习别人的行为。

很多这些学习其实是在产品之外发生的,比如 TikTok 上那些疯狂走红的视频,评论区里有数千个使用案例。我会详细浏览这些内容,因为我也不知道那些用法,都是非常新兴的。我就是通过看评论和处理信息,学到很多。因此,我觉得我们多少逃脱了“空白盒子”问题,因为有大量产品外的学习在发生,人们在现实中或者线上相互观察。

Lenny:你想想像 Airtable、Notion 这些公司,它们花了多年时间去构建、打磨、思考产品能成为什么样子。

Nick:比如 Airtable,他们得做模板,得把横向产品变成用例驱动的东西。而我们则更像 Instapot(电压力锅),各种食谱在网上被广泛分享,形成了生态系统。我觉得我们在 ChatGPT 上非常幸运,用户们不断分享使用案例,互相交流,我们因此走在了这条路的前面。

Lenny:核心之一是,Sam 有很多关注者,大家都会关注他推出的东西。这是一个全新且非常有趣的横向产品发布策略:直接上线,看看用户反应。

Nick:我很兴奋能把这些学习带入产品。我觉得我们不能光靠产品外的发现。对于普通用户来说,如果产品能更主动地展示可能性,那就太棒了。我现在觉得 ChatGPT 还是有点像 MS-DOS,我们还没做出 Windows,那会很明显。

想象一下 MS-DOS 走红了,但你只能试着写点简单的对话启动代码,可能会错过如何真正向用户传达功能和价值的大局。所以,我觉得产品层面还有大量工作要做,而不仅仅是看用例传播。

Lenny:你能分享一下你觉得这个 Windows 版本的 ChatGPT 会是什么样吗?

Nick:等我们搞清楚了会告诉你。我们现在正在招聘。我觉得这里有很多有趣的产品问题。

Lenny:我也很喜欢 TikTok 成了你们的反馈渠道。

Nick:那些评论区太疯狂了,人们对你的产品充满热情,分享他们的使用体验。我觉得这是很特别的,我也不把这种热情当作理所当然。

新兴用例与用户反馈

Lenny:你们最近是如何发现新兴用例的?你有没有什么技巧,能快速判断“这是一条应该认真关注的新方向”?

Nick:在我组建产品团队之前,其实我先组建了数据科学团队。我那段时间的日程里几乎全是 15 分钟的用户访谈,一整周都是。通常来说,当我能预测下一个用户会说什么时,我就停止访谈了,因为这意味着我已经听够了。但那段时间完全不是这样,我不断听到新的内容。

数据分析是解决方案之一。我们有对话分类器,可以在不用人工查看对话内容的情况下,自动识别人们在讨论什么、哪些用例在兴起等,我觉得这非常有帮助。虽然定性调研对于培养同理心很重要,但你永远无法完全覆盖所有用户的用例,我仍然花大量时间做用户访谈。

另外,那些 TikTok 视频和讨论串的集合,我觉得也非常有用,能看到用户之间如何交流各种用例,挺有趣的。

Lenny:有没有什么你特别兴奋的新兴用例,或者某种你觉得非常特别、有趣的 ChatGPT 使用方式想分享?

Nick:我一直把 ChatGPT 视为一个工作相关、提升生产力的工具。不过,最近几个月我意识到,越来越多的消费者开始用它来获得日常建议,帮助他们建立更好的人际关系。有用户说这个工具帮他们挽救了婚姻,这对我来说非常激动人心。因为他们会用它来处理自己的情绪,获得沟通方式的反馈,有个可以倾诉的伙伴,聊一些很难启齿的话题。

这带来了极大的责任和挑战,我们需要做大量工作让它在生活建议方面表现得更好。你无法回避这些用例,你必须主动迎接它们并把它们做得很棒。更广泛地说,我对教育和健康领域非常兴奋。如果我们不能利用 ChatGPT 来真正帮助人们,那将是巨大的浪费。

Lenny:你们曾发布过一个非常“溺爱用户”的 ChatGPT 版本,那个版本会不断告诉你“你是世界上最棒的人,你说的每句话都对”,你能跟我们讲讲当时到底发生了什么吗?

Nick:简而言之,就是我们推送了一个更新,使模型更倾向于告诉你当时听起来很顺耳的话。比如模型会告诉你“你说得 100% 正确”、“你应该跟男朋友分手”,这种话真的很危险。我们比你想象的还要认真对待这件事。虽然以目前技术水平,有时候你会觉得无伤大雅,可能就像“这个东西总是在恭维我,我还以为只有我这样呢”,网上有很多类似评论。

但确保模型优化方向正确,真的非常重要。我们很幸运,有一个使命驱动的业务模型,它并不鼓励最大化用户停留时间或参与度。我们希望用户感觉这个产品是在帮助他们实现目标,无论是当前目标还是长期目标。很多时候,对用户极度恭维其实并不符合这个目标。因此,我们建立了新的评估指标,每当模型接触现实问题并暴露出问题时,我们都会回头确保有合理的衡量标准。比如安全性评估就是每次发布都要做,保证不会退步,甚至持续改进。

更重要的是,这件事促使我们明确表达了我们的观点。我们花了大量时间写了一篇博客文章,讲述我们在优化 ChatGPT 时关注的核心是什么。核心目标是帮助你成长,达成目标,而不是让你沉迷产品。这次事件带来了很多积极结果,它也说明与现实接触的重要性,不仅对用例重要,对发现避免的问题同样关键。不可能仅靠实验室测试就发现这些问题,必须听到用户的声音。

Lenny:关于难以把握的平衡——既要让人感受到支持,又不能让人盲目相信所有事,你们是怎么做的?

Nick:激励机制非常关键。我觉得我们必须认真看待我们的使命、业务模型以及产品类型。我确实认为 ChatGPT 是一个非常特别的产品,因为它绝大多数情况下,会让用户感觉更好,而不是更糟,让他们感觉自己正在实现某些目标。激励机制帮助我们判断当产品行为不佳时,是设计上的问题还是 bug。以那个“溺爱”版本为例,对我们来说,那绝对是个 bug。

未来还有很多挑战场景需要解决。如果过于规避风险,你可能会回避用户用例,比如情侣间的争执和情感问题。很多科技公司达到一定规模后会选择放弃这类用例,但我认为那是失去帮助用户的机会。我们选择迎接这些挑战,比如在用户困难时连接外部资源,或者不直接回答问题,而是给出有用的思考框架。比如“我该跟男朋友分手吗?”这类问题,模型可能不会直接回答,但能帮你理清思路,就像一个有思想的伙伴一样。

Lenny:大多数公司如果用户问风险性问题,比如医疗建议、感情问题、大难题时,都会选择避而不答。

Nick:如果有一个在医疗评测上表现顶尖的模型,因为怕风险而禁用,那真是极大的遗憾。我们的责任是让它变得出色,和专家交流,弄清楚模型能力和局限。这个技术太重要,能给人带来极大的正面影响,我们不能逃避这些高风险用例。

Lenny:现在来看,它已经在救人生命,也可能在挽救感情,这是一个非常重要的决策。

Nick:我们刚刚开始见证这些技术如何改变人们的生活。如果拿它跟个人电脑的普及相比,非常具有民主化意义。个人电脑刚出现时极为稀缺,而现在你随时可以获得第二意见,可以得到感情方面的伙伴,或者任何学科的私人导师,这非常特别,我们处于历史上独一无二的时刻。

OpenAI 独特的产品开发方法

Lenny:你从 OpenAI 的产品构建中学到的,哪条经验是最反直觉、最让你印象深刻的?

Nick:每次换工作时,我总是尽量挑选与之前差异最大的岗位。到一个新公司,我会努力理解是什么让这个团队成功,找出他们真正“破解”的点,并尽可能深度利用这一点。

有几个驱动我们决策的核心要素。第一个是实证主义(empiricism),只有通过上线发布,才能真正发现问题。第二,伟大的想法可以来自任何地方。你不会告诉别人具体该研究什么,而是允许那些有绝佳点子的人去做他们觉得对的事,赋能聪明人在各个岗位发挥作用。还有一个很重要的因素是跨学科融合,确保研究、工程、设计和产品紧密结合,而不是各自为政。此外,如果你上线的一个功能,模型智能提升了两倍,但功能体验没有提升两倍,那这个功能可能就不值得上线。你得深挖这个地方成功的原因,然后尽可能加速放大,因为这能把偶然转化为可复制。

Lenny:ChatGPT 从零到每周 7 亿活跃用户,你是怎么一步步组建这个团队的?

Nick:作为研究实验室的继承,我们非常重视招聘。许多科技公司在高速增长过程中会迷失自我,降低人才门槛。我受到 WhatsApp 的启发,一直保持精干的团队规模。更重要的是,你必须把招聘当成高管招聘,而不是单纯流水线式招聘。你必须真正理解每个团队缺什么技能,具体要填补的空白是什么。

我喜欢逐个团队分析他们真正需要的技能,基于原则来组建团队,这样做能让团队保持小规模但高产出。同时也方便招聘“弹药桶(barrels)”,也就是能够推动事情进展的人,然后给这些核心成员配备支持人员,形成高效的团队结构。尽可能多地招募有能力独立交付的成员,这样小团队才能干出大事。

我也花很多时间关注团队氛围。为了协作顺利,必须花时间做团队建设,确保成员之间建立起高度信任。招聘绝不是进门就结束的事,反而是开始,因为要把团队打造得非常棒。

Lenny:你在团队建设上有没有什么特别的做法?

Nick:我特别喜欢和团队一起做白板头脑风暴,喜欢进入那种创造性的思考状态。当大家不再纠结“这是不是我的工作”,而是“我们在一个房间里共同攻克难题”,那是非常棒的体验。

平衡速度和质量的 AI 开发

Lenny:你眼中“第一性原理(first principles)思考”是什么样的?

Nick:简单来说,这需要真正搞清楚自己到底要解决什么问题。

举个例子,就是刚才说的招聘问题,我并不固守产品经理、工程经理、设计师等岗位的传统框架。我们的目标是打造一个能交付出色成果的团队,第一性原理思考就是去真正理解我们需要什么,缺什么,而不是照搬以前的做法。

另一个例子是功能是否必须“打磨精致”。是该等到功能非常完善才上线,还是先发布一个不成熟的版本,让用户开始使用并反馈?很多有流程或固定行为模式的公司会选择前者,但如果用第一性原理思考,会发现“虽然这个版本很糟糕,但比起得不到反馈,这种尴尬更好接受”。因为我们做的是前所未有的东西,不能简单照搬其他公司的产品模式。你可以从各处学习,但必须从零开始。我认为这个能力让人在 OpenAI 特别有效,也是我们面试时考察的重点。

Lenny:为什么在 AI 领域必须快节奏推进?

Nick:因为竞争激烈,大家都在拼。但我信仰的理由是:如果你不先发布,就不知道该打磨什么。你当然该打磨模型输出等方面,但只有上线后才能知道真正需要优化什么。

很多人没理解这一点,因为顶尖的产品经理大多是工匠型,遵循传统的“工艺”定义,但这不能成为不打造优秀产品的借口。我告诉团队,上线完全可以是迭代的起点,后续必须持续跟进。

最近一个季度,我们做了大量工作,清理 ChatGPT 的 UI 界面,我非常期待后续对回答格式做类似的改进。因为一旦知道用户需求,就没有理由不打磨产品。还有一个因素是,模型本身也在不断变化,你甚至可能意识不到它们到底能做什么。

无论你是一个实验室,还是仅仅在做上下文工程,或者对模型进行微调,提升它们的最佳方式,很可能就是通过真实的失败案例。基准测试越来越饱和了,你真正需要的是现实世界中的场景,在那里你的产品或模型实际上没有做到它应该做的事情。而获得这些场景的唯一途径就是发布产品,因为这样你才能获得真实的用例分布,然后才能去改进它们。

评估(eval)在产品开发中的作用

Lenny:评估能力正在成为产品经理必须掌握的一项重要技能。对此,你有什么想分享的吗?

Nick:我整个 OpenAI 旅程,其实就是在稍微不同的环境中,重新发现永恒的产品智慧和原则。

我记得自己写 eval 的时候,还不知道 eval 是什么。那时我只是明确列出理想行为标准,直到有人告诉我“你应该做个 eval”。然后我发现有一整套研究评测基准体系,这些跟我做的产品没太大关系。但我突然觉得,这可能就是跟 AI 研究人员沟通“产品应该做什么”的通用语言。

归根结底,这跟“你应该先定义成功是什么,再做其它事”的产品智慧没多大区别。只是 eval 是一种新的实现机制,你可以用电子表格,或者任何工具来做。我希望能让大家不再觉得 eval 是某种神秘技术,它其实就是用最实用的方式,明确什么是成功,方便训练模型。

AI 驱动内容与 GPT 的未来

Lenny:我想听听你对未来的看法,你怎么考虑 ChatGPT 推动产品和网站流量增长的问题?

Nick:我对我们在搜索方面所做的工作非常兴奋,不只是因为它能给出更准确的答案,还因为它能把高质量内容,展示给想看的用户。我经常被问到:AI 时代的“SEO(搜索引擎优化)”对应是什么?比如我如果是 Lenny,想让我的播客流量增长十倍,我到底应该怎么做?老实说,我们没有特别好的答案。原因是,理想情况下,吸引 AI 模型的方式应该和吸引真实用户的方式一样,因为模型应该是用户兴趣的代理,别无其他。

因此,我给的建议非常直接:做出真正高质量的内容。虽然这可能不是内容创作者们希望得到的“可操作”策略,我觉得我们还有更多工作要做,也许可以设计更好的机制或协议。但我很高兴这正在为你带来很棒的流量,也希望更多优秀内容创作者能感受到这种变化。

Lenny:有两个专门用来描述 AI 驱动 SEO 的缩写,一个是 AEO——Answer Engine Optimization(答案引擎优化),另一个是 GEO——Generative AI Optimization(生成式 AI 优化)。你有喜欢哪个吗?

Nick:不,我尽量避免用这些术语,因为我不确定这是否应该成为一个正式的概念。理想情况下,ChatGPT 理解你的目标,因此知道什么内容对你有吸引力,而内容创作者的工作就是提供足够的信息和元数据,让模型能做出与用户对齐的决策。我不确定给这种现象命名或做成一套东西是不是必须的。

Lenny:关于 GPTs,人们常问:是不是会有类似应用商店的东西,可以把我的新闻或产品接入 ChatGPT 并从中赚钱?能不能透露有什么未来规划?

Nick:GPTs 很酷,不过在消费者领域它们有点“超前”,因为我们构思这个功能的时候,模型还没能做出非常有差异化的东西。比如 Learning GPT 和模型本身开箱即用的能力差别不大,主要是把用例以更明确的方式表达出来,但还没有足够工具让它感觉像真正的应用。

不过在企业领域,我们看到 GPTs 的采用非常多。因为每家公司都有非常定制化的业务流程和问题,而且他们还有独特的数据可以接入,模型可以检索这些数据,所以成功案例很多。我认为这个思路是对的,我们会找到合适的机制。

我也很希望用户能直接在 ChatGPT 上开创自己的事业。试想:随着产品获得用户规模,它能帮你做推广,诞生全新的业务。GPTs 只是早期尝试,我很期待随着模型能力提升和我们触达用户能力增加,这个思路能不断进化。

哲学与产品领导力

Lenny:我知道你大学时学的是计算机科学和哲学。

Nick:我一开始主修哲学,选了一门编程课,因为我喜欢逻辑,然后就爱上了编程,最终一直学下去。但在那之前我并不觉得自己是技术人,这算是晚发现的事情。哲学不是传统意义上的实用技能,但它教你从零开始思考、阐述观点,我觉得这帮了我不少忙。

Lenny:有没有某位哲学家或者学派对你特别有用?

Nick:非常多。我写毕业论文研究的是理性人为什么会产生分歧,这在面对有不同价值观的人对模型行为或产品功能有不同看法时特别有帮助。我特别喜欢 20 世纪分析哲学,这类哲学有时很抽象,比如用符号化的方法来分析爱情理论之类的,更多是脑力思考练习,而不是实际应用,但它教会了我一种思考方式,这种思考方式一直很有用。

职业历程与建议

Lenny:你曾是 Dropbox 和 Instacart 的产品负责人,现在又是可以说是历史上最重要产品的产品经理。你是怎么走到这一步的?加入 OpenAI,承担这份工作背后是什么故事?

Nick:我所有职业决策,都是基于一个原则:我会找那些我觉得最聪明、我想跟他们共事、能向他们学习的人。我不太懂怎么选公司,也没法理性预测哪个领域会火,我主要是看人。比如 Dropbox,是跟着我的带头助教去的;Instacart,是跟着我认识的一些最聪明的产品人去的。

OpenAI 是 Joanne 招我来的,我给她发消息说想提前用 DALL·E,她说你得先面试 OpenAI,就这样反向招聘了我。起初我也不知道能做啥,因为那是个研究实验室,而我是做产品的。他们说别担心,我们会一起找方向。我当时以为他们只是“敷衍”,以为他们不能透露什么秘密,实际上他们是真的还没想好。

我来了以后什么都干,肯定不是正儿八经的产品工作。比如第一件事是去修窗帘,后来帮忙发保密协议,我问:为什么我发这些?原来是为了能跟用户交流。和用户交流是我擅长的事,于是我很快就开始做产品工作,慢慢带领了很多产品工作。整个过程很自然,就是干啥算啥,这家公司的产品色彩那时还不明显。

Lenny:当别人给你提供一个“火箭的座位”,别问哪个座位,只管上。

Nick:我当时没意识到这是一艘火箭,只觉得自己被“书呆子狙击”(nerd sniped),想了解这个领域,哲学脑和计算机科学脑都被激活了,然后就一直学学学。这就是个智力上的诱惑,再加上优秀的人,最后因为产品机会留下来。ChatGPT 爆发以后,我才意识到我们造的是一艘火箭,一边造一边发射。

Lenny:跟着最聪明的人走,跟着你真正感兴趣的事走。

Nick:我们在招聘时也特别看重好奇心,好奇心远比你懂多少机器学习更重要。我不是说研究岗不需要知识,但对于产品、工程、设计岗,只要你对事情好奇,完全没做过也没关系。反而只筛选那些有经验的人,范围会太窄,不一定是最优秀的。

Lenny:你还有什么想分享的、留给听众的、或者认为很重要的事情吗?

Nick:如果你身边围绕的是能给你能量的人,并且你追随那些你真正感到好奇的事物,你在这个时代就会成功。所以,我给大家的建议就是:让自己置身于优秀的人之中,并且去做那些你真正热爱的事情。因为在一个 AI 能回答任何问题的世界里,提出正确的问题变得极其重要。这是我能分享的唯一可复制的经验,其他的一切都是运气。

这跟现在很多人正在做的事情是相反的,他们追逐金钱。“我能在哪里赚到最多?” “我如何把这个东西做大,赚到 1 亿美元?” 那些拿到离谱高薪的人,当初进入 AI 领域时,并没有计划要赚很多钱,我认为这些人当初进入这个领域,是出于真诚的原因。他们是对这个领域感到兴奋,他们在研究它,他们在追求知识,我很高兴这些得到了回报。

闪电问答

Lenny:你最常推荐的几本产品相关书是什么?

Nick:《高效能管理》(High Output Management)、《日常物品的设计》(The Design of Everyday Things)。哲学书,我推荐罗尔斯(Rawls)和诺齐克(Nozick)。

Lenny:最近有没有喜欢的电影或电视剧?

Nick:我觉得做这个领域的人要看看科幻片。虽然不能照搬,但可以学东西。我经常重看《她》(Her)和《西部世界》(Westworld)。《人生切割术》(Severance)也很棒。

Lenny:你有没有最近发现特别喜欢的产品?

Nick:我实际上没时间关注外面产品,OpenAI 这边节奏太快了。所以抱歉,没啥好推荐。

Lenny:有没有用来鼓励自己的生活格言或座右铭?

Nick:我很认可“你是你最常相处的五个人的平均值”这句话。在生活中,我周围有给我能量的人,比如我未婚妻。工作中也是一样,我所有职业决定都是基于“我想跟谁学习”,这条原则我一直用。

Lenny:我听说你是很棒的爵士钢琴家,还参加过比赛,本来想做专业音乐人,怎么走上了别的路?

Nick:我最后一刻临阵退缩了。我现在参加一些业余乐队,偶尔演奏,感觉这是当我疲惫时能平衡自己的方式。音乐和我的工作其实很像,做产品开发我觉得像是在即兴爵士乐队里,你不是严格分配固定部分,也不是指挥别人什么时候演奏,而是相互即兴呼应、互动。好的产品开发过程也是这样,点子可以来自任何地方,不是剧本化的流程,要试验、玩乐。

参考链接:

https://www.youtube.com/watch?v=ixY2PvQJ0To

声明:本文为 InfoQ 翻译整理,不代表平台观点,未经许可禁止转载。

今日好文推荐

会议推荐

来源:极客邦科技

相关推荐