OpenAI 与 Anthropic 首席产品官对谈:AI 时代产品经理的核心技能是写评估|Z Talk

B站影视 2024-11-20 19:15 2

摘要:Kevin Weil 与 Mike Krieger 目前分别在顶级大模型公司 OpenAI 与 Anthropic 担任 CPO(Chief Products Officer, 首席产品官)。在此之前 Kevin 曾是 Instagram 与 Twitter

Z Talk 是真格分享认知的栏目。

这可能是最懂 AI 产品的两位产品经理之间的对谈。

Kevin Weil 与 Mike Krieger 目前分别在顶级大模型公司 OpenAI 与 Anthropic 担任 CPO(Chief Products Officer, 首席产品官)。在此之前 Kevin 曾是 Instagram 与 Twitter 的产品副总裁,而 Mike Krieger 则是 Instagram 的联合创始人兼 CTO。

两位顶级产品经理过去均拥有丰富的亿级消费产品构建经历,熟悉互联网产品的开发逻辑。他们现在的工作则同时面向消费者、企业和开发者,各自所在企业的大模型又都是当下能力最强的大模型之一。

在两人最近一次与 Conviction 创始合伙人 Sarah Guo 的公开对谈中,Kevin 与 Mike 从 AI 产品经理的专业视角出发,谈及当前模型潜力受限的关键点、构建 AI 驱动功能的产品对当今产品经理的核心能力要求,并阐述了对大模型未来发展样态的展望。

本文转载自 Founder Park,以下是全文:

01

在大模型公司做产品,

ToC、ToB、ToD 都要做

Sarah Guo:你们俩都曾管理过 Instagram,然后你们俩进入了一个相对较新的角色,很期待听听你们俩的各种想法。Kevin,从你开始吧。你做过很多不同又有趣的事情,你接这份新工作(OpenAI 的 CPO)时,朋友和团队的反应是什么样的?

Kevin Weil:非常兴奋。我觉得这是最有趣、最有影响力的岗位之一,有太多东西要去探索。我从没经历过这样具有挑战性、有趣(也让我彻夜难眠)的产品岗位。它包含了产品岗位的所有常规挑战——弄清楚目标用户是谁、解决哪些问题之类的。

通常做产品时,是基于已有的技术基础去开发,我们知道手上有什么资源,然后尽力打造出最好的产品。而在这里,情况完全不同,每隔两个月,计算机就能做一些它们以前从未做到的事情,我们要去思考这些进展会如何影响产品,变化相当大。因此,能够从内部见证 AI 的发展,真的非常有意思,也令人着迷。而且,我在这里真的很享受这个过程。

Sarah Guo:Mike,你呢?前不久一起吃饭的时候,你那种纯粹的好奇心让我印象特别深。你就像个孩子一样兴奋地说,「对啊,我现在在学各种企业相关的东西。」那么,跟我们聊聊吧——这种服务 Instagram 以外的客户、在一个以研究为驱动的组织中工作,给你带来什么样的惊喜?

Mike Krieger:这个岗位对我来说是全新的体验,我 18 岁时做了一个很「18 岁」的誓言,就是每一年都要过得不一样。所以,这也是为什么有时候我会觉得,「哦,又是做一个社交产品吗?我又在做同样的事了。」我不想重复之前做过的东西。

企业市场真的很特别。比如反馈周期,我觉得在企业里这更像是投资,周期比在外面要长得多。可能刚和别人有了初步接触,觉得对方挺喜欢你的产品。但突然发现项目进入了采购审批流程,可能要等上六个月才能真正部署,才能知道结果如何。

在企业里要适应这种等待的过程,当你着急问「为什么还没有落地」的时候,他们会说「嘿,你才来两个月而已,这还在各个副总裁那里审批呢,总会通过的。」所以你必须要适应这种不同的时间节奏。

但有趣的是,一旦项目部署完成,你就能获得真正的反馈和互动。你可以直接打电话给客户,问问他们:「系统用得怎么样?效果好吗?」

相比之下,面向普通用户时,你只能做数据分析,虽然也可以找一两个用户聊聊,但他们没有足够的动机来详细告诉你哪里做得好,哪里做得不好。这种企业市场的反馈方式虽然不同,但确实也很有收获。

Sarah Guo:Kevin,你之前参与了那么多种类的产品开发,感觉你的直觉在这里有多少用得上?

Kevin Weil:是的,我也想补充一下企业客户的特点,然后再回答这个问题。企业客户有个很有意思的点,它不一定只看产品本身,因为还有买方的其他因素存在。他们有自己的目标,就算你做了一个顶尖的产品,企业内部的人都很满意,但这也不一定就代表着什么。

比如我在跟某个大客户开会时,他们表示非常满意,觉得产品很棒,但是他们说,「有件事我们需要,就是希望你们任何更新都提前 60 天通知我们。」当时我心里想,我也希望能提前 60 天知道呢!

很有意思的是,因为在 OpenAI,我们既有面向消费者的产品,也有面向企业的产品,还有开发者产品。所以我们几乎是在同时做所有这些类型。至于直觉方面,我觉得大概有一半的工作能用得上吧。当你清楚自己要做什么产品时,比如快要发布高级语音模式或者 Canvas 时,直觉就派得上用场。你知道目标用户是谁,也清楚要解决哪些问题,这部分更像是传统的产品发布流程。

但这些项目的开始阶段就完全不同了。比如有些功能,是在新模型训练过程中才逐渐浮现的能力。你可能觉得某种功能有可能会实现,但其实研究团队甚至所有人都还不确定,就像在雾中看见一个模糊的轮廓,你不知道它能否真正实现,也不知道它的成功率会是 60%、90% 还是 99%。而如果某个功能的成功率只有 60% ,与 99% 相比,整个产品的设计思路会完全不同。

所以,这时你只能等待,还得时不时和研究团队沟通一下,「嘿,最近怎么样?模型训练进展如何?有什么新发现吗?」他们会说,「我们也在研究中,还在摸索。」这个过程确实很有意思,因为你是在和大家一起探索,相当随机。

Mike Krieger:这种情况最让我想起 Instagram 时期每次 Apple 发布 WWDC 消息的感觉——就好像这更新可能让我们受益,也可能让我们陷入混乱。不过,现在是自己的公司在内部给自己带来这些变数,这种感觉很酷,但同时也可能会彻底打乱产品计划。

02 模型的准确率到 60% 时,

就可以开发产品了

Sarah Guo:如果你们不知道未来会有什么功能,怎么可能做出计划呢?探索那些应该加入产品的新功能的迭代过程是怎样的?

Mike Krieger:其实你可以大致看到一些方向,虽然它不可预测,但至少是朝某个方向在前进。这样,你就能开始围绕这些方向去构建产品。

首先是从产品侧出发,去决定你要投资哪些功能,然后与研究团队一起做微调。像「artifacts」这种功能,我们和研究团队花了很多时间一起做调整,我觉得 Canvas 也是一样。就是进行「共同设计、共同研究、共同微调」。这也是在这家公司工作的一个特权,能参与设计这个过程。

第二,是关于功能的前沿突破。比如 OpenAI 的语音模式。我们这周发布的版本(Anthropic 的 Computer Use 功能)就是一个典型的例子,到了 60% 的完成度,我们就觉得「好吧,差不多够用了」。我们尝试做的是在过程的早期就把设计师嵌入进来,但要知道你不是在押注某个产品。

正如之前讲的实验过程一样,你的实验输出应该是学习,而不一定是每次都能推出完美的产品。结果应该是展示性或信息性的东西,这些东西可能会激发产品创意,而不是一种可预测的产品开发过程。这样降低预期,你就在心里已经做过风险规避了。

Sarah Guo:我们在做投资时,常常会思考一个问题,那就是,如果一个模型的成功率只有 60%,而不是 99%,那它还能做什么?很多任务可能最终接近 60% 的成功率,尤其是那些非常重要且有价值的任务。那么,你们在内部是怎么评估的?当你们面对这些任务时,产品设计上应该怎样去处理,以确保即使是「失败」的情况也能优雅地展示给用户,还是说,我们只需要等模型变得更强大?

Kevin Weil:实际上当模型的准确率只有 60% 时,还是可以做的。关键是你得为此做好设计。你必须预期,模型背后会有更多的人工参与其中,而不是完全自动化。

就拿 Github Copilot 来说吧,这个产品实际上是第一个真正让大家意识到,AI 不仅能用于 Q&A,它也能为真正有经济价值的工作提供帮助。当时发布的模型,我不太确定具体是哪一代,但至少它已经是好几代之前的版本了。可以肯定的是,这个模型在与编程相关的任务上并不完美。不过,虽然它的准确率并不完美,但它依然能为你提供价值——如果它能把代码完成一部分,那就能省下你大量的时间。

现在我们也会看到类似的情况,特别是随着我们向智能 Agent 和长任务转变,虽然结果可能不完美,但如果模型能帮你节省五到十分钟时间,这依然是很有价值的。

更重要的是,如果模型能够意识到自己对某些地方没有信心,并且能主动回过头来问你:「我不确定这个,能帮我确认一下吗?」那么人类与模型的合作效果就能远远超过 60% 的准确率。

Mike Krieger:我也发现,那个 60% 这个「神奇的 60%」数字其实挺有意思的,它就像一个界限。

Kevin Weil:我随便说的,五分钟前才想出来的。

Mike Krieger:60% 是我们新的标准,像是 AI 的「门多萨线」。我觉得这准确率往往是非常不稳定的,有些测试能表现得很好,而有些测试就完全不行。这也很有趣,有时候甚至会同一天收到来自两家不同公司的反馈。一个说可以了、一个说还不行。

门多萨线:Mendoza Line,棒球术语,用来指代打击率低于 0.200 的球员。来源于前职业棒球大联盟球员 Mario Mendoza,他职业生涯的平均打击率仅有 0.215。Mendoza Line 象征着在棒球中球员的打击表现的最低可接受标准。此外,这个术语也被用在其他美国体育、政治和流行文化中,表示平庸和糟糕之间的分界线。

并不是说结果完全偏离预期,只是比其他模型表现差一些。虽然我们有自己的内部评估标准,但当模型真正应用到实际场景中时,就会发现问题。这就像产品设计一样,你做了很多设计工作,但放到一个用户面前时,突然发现:「哦,原来我想错了。」模型也是这样。

我们尽最大努力去预判,但用户们有他们自己的数据集、自己的使用方式,他们会用自己的方式去跟模型交互。所以当模型真正落地时,会出现各种问题。

03 AI 时代的产品经理,

写评估标准是核心技能

Kevin Weil:我很好奇你是否也有这种感觉。我觉得现在的模型并不是受限于智能,而是受限于评估。它们实际上可以做得更多,在更广泛的领域中表现得更准确。关键是要教会它们一些特定领域的知识,这些可能不在它们最初的训练集中,但只要正确引导,它们是可以学会的。

Mike Krieger:我们一直都看到这种情况,大约三年前发生过很多令人兴奋的 AI 部署。现在他们说:「我们认为新模型更好,但我们从未进行过评估,因为三年前我们所做的只是发布酷炫的 AI 功能。」

最难让人们克服的障碍是:「让我们退一步,成功对你来说究竟意味着什么?你正在解决什么问题?」而且产品经理经常会换人,所以接手的人需要重新定义这些问题。

我们发现 Claude 其实很擅长写评估标准,也擅长打分。所以我们可以帮你自动完成很多工作,但你得先告诉我们什么是「成功」。然后我们才能逐步改进,这往往就是任务完成度从 60% 提升到 85% 的关键。

如果你来 Anthropic 面试,你会发现我们面试过程中会让你把一个糟糕的提示改进成好的提示。我们发现这方面的人才在其他地方比较缺乏,所以如果要教人们一件事,这可能是最重要的。

Kevin Weil:是的,写评估标准。我觉得这将成为产品经理的一项核心技能。

Mike Krieger:我们内部有个有趣的情况。我们有研究类产品经理,主要负责模型能力和开发;还有负责产品界面和 API 的产品经理。我们发现到了 2024、2025 年,开发 AI 功能的产品经理的工作越来越像前者而不是后者。

比如我们推出了代码分析功能,Claude 现在可以分析、编写代码。产品经理把功能做到 80% 的程度,还需要交给会写评估标准的产品经理来做微调和提示词优化。这其实是同一个角色,你的功能质量现在取决于你的评估和提示词做得有多好,所以这两种产品经理的定义现在正在融合。

Kevin Weil:完全同意。我们专门设立了训练营,教所有产品经理写评估标准,让他们理解好坏评估的区别。当然我们还没完全做好,需要继续改进。但这确实是用 AI 做好产品的关键。

Sarah Guo:对于那些想成为优秀的 AI 产品或研究产品开发者的人来说,该怎么培养在评估和迭代方面的直觉呢?

Kevin Weil:其实你可以用模型本身来学习,就像你说的,你可以问模型什么是好的评估标准。你可以说「我想做这个,能给我写个评估样例吗」,它给出的答案通常都不错。

Mike Krieger:是的,这确实很有用。另外还有一点,如果你听过 Andrej Karpathy 等在这个领域深耕多年的人的观点,他们会说没有什么比研究数据更重要。人们经常纠结于已有的评估结果,比如新模型达到了 80% 而不是 78%,觉得不能发布,或者觉得更糟。但如果我们仔细看失败的案例,可能会发现:「哦,其实这个更好,只是我们的评分标准不够好。」

有趣的是,每个模型发布时都会有模型卡片(model card),在看这些评估时,有时连标准答案我都觉得不太对,比如觉得人类可能不会这么说,或者觉得数学计算可能有点问题。要拿到 100% 的分数真的很难,因为评分本身就很有挑战性。所以我建议,培养直觉的方法就是去看实际的答案,哪怕是抽样看,然后想:「好吧,也许我们应该改进评估标准」,或者「虽然评估分数不高,但整体感觉还不错」。深入研究数据很重要。

Kevin Weil:我觉得随着我们向更长的上下文或 Agent 发展,这个问题会变得更有趣。比如说,让模型做数学题并得到正确答案,这种情况下很容易判断好坏。但当模型开始处理更长篇幅、更模糊的任务时,比如「帮我在纽约订酒店」,什么是正确答案?很多时候要考虑个性化。如果你让两个完全胜任的人去做,他们会做出不同的选择。所以评分标准会变得更灵活。我们可能需要再次改变评估方式。

Mike Krieger:是的,评估可能会更像绩效考核。比如说,模型是否达到了一个称职的人类能做到的水平?是否超出预期?因为它完成得更快,或者发现了你不知道的餐厅?评估变得不再是简单的对错判断,而是更微妙和复杂的东西。

Kevin Weil:更不用说这些评估标准是人写的,而模型在某些任务上已经能超过人类了,人们有时候更喜欢模型的答案而不是人的答案。所以如果是人来写评估标准,这到底意味着什么呢?

Sarah Guo:评估标准是关键。我们要花时间和这些模型打交道,学习写评估标准。那么除此之外各位产品人还需要学习哪些技能?

Mike Krieger:我觉得用这些模型做原型设计是一个被低估的技能。我们内部最优秀的产品经理就是这么做的。比如我们在讨论 UI 应该是这样还是那样时,在设计师打开 Figma 之前,产品经理或工程师就会说:「我已经让 Claude 做了个对比,看看这两种 UI 会是什么样子。」我觉得这很酷。我们现在能以比以前快得多的速度制作和评估更多的原型。学会使用模型工具进行原型设计是很有用的技能。

Kevin Weil:我觉得这也会推动产品经理更深入地了解技术栈。这可能会随时间改变,就像如果你在 2005 年做数据库技术,可能需要以不同的方式深入理解底层原理。但现在有了更多抽象层,可能不需要知道所有基础知识。

当然不是说每个产品经理都需要成为研究员,但要对研究有所认识,花时间学习相关术语,对这些东西如何运作建立直觉,这会很有帮助。

Mike Krieger:另一个方面是,你在处理一个随机的、非确定性的系统。评估标准是我们的最佳尝试,但在一个你无法完全控制模型输出的世界里做产品设计,你需要考虑如何建立反馈机制来闭环。比如当模型偏离轨道时如何判断?如何快速收集反馈?需要设置什么样的护栏?如何了解它在整体上的表现?你需要理解这个智能系统在很多人使用过程中产生的大量输出。这和传统的「点击按钮没反应」这种明确的 bug 反馈完全不同。

Kevin Weil:也许人们习惯了这种情况之后会有所改变。但现在我们都还在适应这种非确定性的用户界面,更不用说那些不懂技术的用户了。这违背了我们过去 25 年使用电脑建立的所有直觉——相同的输入往往会得到相同的输出,但现在不是这样了。

我们不仅要适应这一点,在开发产品时还要站在用户的角度思考这意味着什么。这既有缺点也有很酷的优点,所以思考如何利用这一特性很有趣。

Mike Krieger:我记得在 Instagram 时我们做了很多持续性的用户研究,每周都会有研究员带来不同的用户测试原型。我们在 Anthropic 也这样做。

有趣的是,在这些测试环节中,用户的 Instagram 使用方式常常让我感到意外。他们的用例或对新功能的反应总有一些有趣之处。而现在,一半取决于用户的行为,一半取决于模型在那种情况下的反应。

当模型表现得很好时,你会有一种自豪感。但当它误解了用户意图,给出了长篇大论的错误回答时,又会感到沮丧。这可能也需要一种「禅」的心态,学会放下控制,接受在这些环境中可能发生的任何事情。

04 ToC 产品可以试着让 AI 去「教育」用户

Sarah Guo:你们都曾参与开发面向消费者的产品,快速教会了数亿用户新的使用习惯。AI 产品的发展甚至比这更快。如果连产品经理和技术人员对如何使用它们都没有太多直觉,你们是如何考虑在如此大规模上教育最终用户使用这种反直觉的产品的?

Kevin Weil:人类适应新事物的速度确实很惊人。我前几天和人聊到他们第一次乘坐 Waymo 的经历。这是个神奇的体验。人们最初 30 秒可能会说「天啊,小心那个骑自行车的」,5 分钟后就会觉得「哇,我在体验未来」,10 分钟后就开始无聊地刷手机了。

我们多快就习惯了这种完全魔法般的东西啊。ChatGPT 还不到两岁,它刚出来时确实令人震惊。现在如果让我们回去用最初的 GPT-3.5,大家可能会觉得 3.5 很差劲。

今天我们在做的这些东西,现在还感觉很神奇,但 12 个月后我们可能会说「你能相信我们曾经用那种垃圾吗?」发展太快了。但令我惊讶的是人们适应得多快。尽管我们努力带着大家一起前进,人们明白世界正朝这个方向发展,这个变化正在发生,而且发生得很快。

Mike Krieger:们正在努力改进的一件事是让产品本身以一种非常直白的方式进行教育。

我们早期没有做到,现在正在改变的是让 Claude 多谈谈它自己,比如它的训练集是什么,它是 Anthropic 创建的人工智能等等。现在我们会直接跟用户说「这个功能该怎么用」。

这来自于用户研究,因为我们发现用户会问「我该怎么用这个?」然后 Claude 会说「我不知道,你试过上网查查吗?」这显然不够好。所以我们现在真的在努力让它更贴地气。这是个过程,我们在不断改进。

现在看到它能提供确切的文档链接,告诉用户怎么做,「哦,你卡住了,我来帮你」这样的回应很棒。这些模型实际上很擅长解决 UI 问题和用户困惑,我们应该在这方面多加利用它们。

Sarah Guo:在企业中推动变革管理一定很不一样吧?因为有既定的工作方式和组织流程,你们如何考虑教育整个组织关于生产力提升或其他可能的改变?

Mike Krieger:企业这块很有意思,因为虽然这些产品有数百万用户,但重度用户还是主要集中在早期采用者和技术爱好者中。而在企业中,你要面对的是整个组织,其中很多人都不太懂技术。看到非技术用户第一次接触基于 LLM 的聊天系统很有意思。你可以开展培训会议,准备教育材料。我们需要从这些经验中学习,思考如何教育下一个亿级用户使用这些界面。

Kevin Weil:企业内部通常都有一些重度用户,他们很乐意教其他人。比如在 OpenAI,我们有可以定制的 GPT,这让重度用户能够创建一些工具,让其他可能不太会用的人来说更容易上手 AI。找到这些重度用户很重要,他们会成为传播者。

Sarah Guo:我必须问问你们,因为你们的组织都是重度用户,生活在未来。Computer Use 体验如何?你们都在用它做什么?

Mike Krieger:对,内部使用方面,就像 Kevin 之前说的,我们很晚才确信这个产品已经足够好了。虽然还很早期,还会犯错,但我们觉得值得尝试。最有趣的用例是在 beta 测试时,有人想试试能不能让它帮我们订披萨,结果真的成功了。当 Dominos 送到办公室,而且完全是 AI 订的,那是个很酷的里程碑时刻。虽然是 Dominos(笑),但毕竟是 AI 订的,所以还是很棒的。而且它订了很多披萨。

我们看到一些有趣的早期应用。一个是 UI 测试,在 Instagram 时我们几乎没有 UI 测试,因为它们很难写,而且很脆弱 - 比如移动一个按钮,测试就会失败,需要重新截图。但 Computer Use 在测试「它是否按预期工作」这方面表现得很好,这很有趣。

我们还在探索一些涉及大量数据处理的 Agent 任务。比如在支持团队和财务团队中,有很多表格需要填写,数据需要从一个系统转移到另一个系统,这些都需要人工时间。我经常用「枯燥工作」这个词来形容 Computer Use 的使用。我们能否通过自动化这些枯燥工作,让人们专注于创造性的工作,而不是重复点击 30 次只为完成一件事。

05 复杂任务应该是多模型协同

Sarah Guo:Kevin,很多团队都在尝试 o1,你们现在的模型可以做更复杂的事情。但如果已经在应用中使用了 GPT-4 之类的模型,也不能简单替换。能给我们一些指导,说说你们内部是怎么使用 o1 和这些新模型的吗?

Kevin Weil:人们可能没意识到,我们的很多高级客户和我们内部其实不是用单一模型解决特定问题。你最终会把不同模型组合起来,形成工作流程和编排。我们根据每个模型的优势来使用它们。o1 在推理方面很强,但需要一些思考时间,而且不是多模态的,还有其他限制。

Sarah Guo:解释下什么是推理?我知道这是个基础问题。

Kevin Weil:人们已经很熟悉预训练、Scaling Law 的概念了,从 GPT-2、3、4,预训练规模越来越大,模型变得越来越「聪明」,或者说知识越来越多。但这些都是类似系统 1 思维——你问一个问题,立即得到答案,就像文本补全一样。

有趣的是,对人类行为的直觉感知往往能帮助你理解模型的工作方式。就像你问我问题,我说偏了就很难回到正题,模型也是这样。但除了这种越来越大的预训练,o1 实际上是在查询时通过不同方式扩展智能。不是系统 1 思维那样立即给出答案,而是会暂停思考,就像人类一样。

比如让你解数独或《纽约时报》的连线谜题,你会开始思考:「这些词怎么分组?这四个可能是一组?不,我不确定...」你在形成假设,用已知信息来验证或否定这些假设,然后继续推理。这就是科学突破的方式,也是我们解答难题的方式。现在我们在教模型这样做。目前它们会思考 30 到 60 秒才回答。想象一下如果它们能思考 5 小时或 5 天会怎样。这基本上是扩展智能的新方式,我们觉得才刚刚开始,就像是这种新型推理方式的「GPT-1 阶段」。

但同样,你不会在所有场合都用它。有时候问题需要立即回答,不能等 60 秒。所以我们最终会以不同方式组合使用模型。

比如在网络安全领域,你可能觉得模型不适合因为它们会产生幻觉。但你可以微调模型来完成特定任务,让它们对输入输出非常精确,让多个模型协同工作。有的模型负责检查其他模型的输出,发现问题时要求重试。这就是我们内部如何从模型中获得大量价值——针对特定用例,让多个模型协同工作。这又回到了人类工作方式的类比:我们完成复杂任务时,不同专长的人会一起合作。

06 未来的 AI 产品:

主动性、异步性

Sarah Guo:告诉我们一些关于未来的事情,接下来会发生什么。我知道你们不一定知道具体的发布时间,所以不必给我们确切的日期。但如果你们展望未来,你们觉得 6 到 12 个月之后哪些体验会变得可能?或变得普遍呢?

Mike Krieger:我关注的一个问题,就是如何让 AI 变得更主动。

我想到的两个关键点,第一个是「主动性」。当模型了解了你,并且在适当的情况下,比如你授权它读取你的邮件,它可能会开始识别一些趋势,也许你每天能收到一份总结,比如它提醒你今天有几个重要的会议,或者提前为你做了一些研究,提醒你:「嘿,你下个会议要开始了,或许你可以聊这些话题。」比如,如果你有个即将到来的演讲,它甚至会提前帮你准备好第一稿,这样的「主动」功能我认为会非常强大。

另外一个方面是「异步性」。想象一下,从 0 到 1 的早期 UI 探索,它会告诉你它正在做什么,也许你就坐在那里等着,也许你可以说:「它可能需要一点时间,我先去做点别的,等它完成后再回来看看。」

这就是在时间维度上的扩展,它可能不会立即给你答案,而是先去思考、去研究,甚至可能需要向其他人求助,然后它再给你第一份答案,经过验证后在一小时后回馈你。

打破那种「必须立刻得到答案」的期待,可能会让你做更多的事情。比如,不仅仅是让 AI 帮你改个界面上的小细节,而是让它处理更复杂的任务,比如:「帮我改进一下我的 PRD,适应这些新的市场条件」,或者「根据这三个新的市场趋势,调整我的战略计划」。能推动这种多维度的进展,是我最期待的产品功能。

Kevin Weil:我完全同意。而且,我认为模型会以加速的速度变得越来越智能,这也是一切得以实现的一部分。

另一个让我很兴奋的事情是,看到这些模型能够像我们人类一样进行互动。现在,大多数时候我们与 AI 的互动是通过打字来进行的,像我在 WhatsApp 和朋友们聊天时也是一样,虽然我也会说话,也能看见。

最近我们发布了高级语音模式,我在韩国和日本和别人交谈时,尤其是与那些我们完全没有共同语言的人交流时,真的是一种魔法般的体验。以前我们可能根本无法说一句话,但现在我对着 AI 说:「嘿,ChatGPT,当我说英文时,请翻译成韩文;当你听到韩文时,请把它翻译成英文。」突然之间,我就有了一个「万能翻译器」,可以和对方进行商务对话,真的是太神奇了。你可以想象一下,这不仅仅是商务场景,想象一下人们如果不再担心语言不通,是否会更加愿意去新的地方旅行。而且你口袋里随时都有一个像《星际迷航》中的「万能翻译器」。

我相信像这样的体验将很快成为常态,但它仍然很神奇,我对这种技术的未来充满期待,尤其是和 Mike 刚才说的这些结合起来,更加令人兴奋。

Sarah Guo:自从语音模式发布以来,我现在很喜欢看 TikTok 上的一种类型的视频,其实就是年轻人和语音模式互动,向它倾诉心事。我自己可能完全不会想到这样去互动,但这些 14 岁的年轻人却认为理所当然:「我希望 AI 能做到这个。」这种互动方式对我来说是全新的体验。而我很强烈地相信,AI 将会成为我们生活的一部分,我真的非常喜欢看到这种现象。

Kevin Weil:你有没有给你的孩子们用过它?

Sarah Guo:我还没有。两个孩子一个 5 岁一个 7 岁。

Kevin Weil:我的孩子们差不多也是 8 岁和 10 岁左右,但每次坐车时,他们都会问:「我可以和 ChatGPT 聊聊吗?」然后他们就开始问一些非常奇怪的问题,和 AI 聊一些稀奇古怪的话题,但他们完全不觉得奇怪,反而很开心和 AI 互动。

Sarah Guo:说个我最近很喜欢的事情吧,作为今天的结束话题。想当年我父母给我读书的时候,我很少能自己选书。通常都是我爸说「今天就读这本」。现在我的孩子们,可能是因为在硅谷长大,他们会和我说:「妈妈,我要听个关于龙和独角兽的故事。」我心想,「这要求可真高啊」。不过我很高兴他们相信这是可能的,虽然这种自己创造娱乐内容的方式确实挺疯狂的。说说看,你们最近在产品中看到什么让人惊讶的使用方式?

Mike Krieger:我觉得这是一种行为和关系的变化。人们开始真正理解像 Claude 这样的模型的细微差别,他们知道它到底是什么,它是不是一个新的收入来源。人们会开始理解这种微妙的感觉,几乎是在和模型建立一种朋友关系,或者说,发展出很多双向的同理心。

然后我会听到有人说,「这个新模型感觉更聪明了,但似乎有点疏远。」这种微妙的变化让我作为产品经理,感受到更多的同理心。你不是在发布一个产品,而是在发布一种智能和同理心——这正是人际关系中的关键。

如果某个人突然告诉你,「我升级了,数学成绩提高了 2%,但我变得不一样了。」你可能会说,「哦,我得适应一下,可能会有点担心。」所以,对我来说,这一过程是非常有趣的,理解人们在使用我们产品时的心态。

Kevin Weil:模型的行为绝对是一个产品问题。模型的个性非常重要,也有一些有趣的问题,比如它应该有多少个性化,或者说 OpenAI 的模型和 Claude 的模型是不是应该有不同的个性?人们会因为喜欢某个模型的个性而选择使用它吗?

这其实是非常人性化的事情,我们之所以和不同的人交朋友,也是因为我们更喜欢某些人,而不是其他人。这也是一个值得思考的问题。

我们最近做了一些实验,结果在推特上引起了轰动。人们开始问模型:「根据你了解我的所有信息、我们之前的互动,你会怎么描述我?」然后模型会给出一个回答,描述它基于你过去的互动对你的一些看法。这种互动几乎就像是在和某个实体或者人物进行对话。看到人们对这种互动的反应,真的非常有趣。

来源:真格基金一点号

相关推荐