别听模型厂商的,Prompt不是功能,是bug

B站影视 内地电影 2025-08-05 10:50 1

摘要:Conviction 投资的 AI 公司包括但不限于 Cursor、Cognition(Devin)、Mistral、Thinking Machines、Harvey 和 OpenEvidence 等。热门产品、基模、垂直赛道,几乎都囊括,可以说,是很资深的科

除了是知名 AI 播客「No Priors」的主理人之外,Sarah Guo 更知名的身份,是风险投资 Conviction 的创始人。

Conviction 投资的 AI 公司包括但不限于 Cursor、Cognition(Devin)、Mistral、Thinking Machines、Harvey 和 OpenEvidence 等。热门产品、基模、垂直赛道,几乎都囊括,可以说,是很资深的科技投资人了。

最近在一个线下活动上,她分享了对于 2025 年 AI 创业的观察和分析,输出了不少在当下看来,有些「非共识」的观点。

「从 用户体验 的角度看,提示 (prompt) 是一个缺陷,而不是一个功能。它只是一个过渡阶段。不要让用户去思考。」

「那些最传统、技术水平最低的行业,反而在以最快的速度拥抱 AI

以及不要做通用的「text box」,因为 OpenAI 已经把这些事干得很好了。

身为 Cursor 的投资人,她还分析了为什么 AI Coding 会成为 AI 应用的第一个突破口。基于此,我们能看到的下一个突破口会在哪里。

「最终的赢家不会仅仅是那些学习了某个领域知识的 AI 专家,而将是那些以客户为中心、以问题为导向的实干家。」

构建一个「厚实」的产品,并保持领先。而这一切, 都需要 taste 和大量的努力。

基于 Sarah Guo 演讲分享,Founder Park 进行了内容的编译,文章不长,推荐全文阅读。

首先,我向大家提个问题:到 2026 年底,以下哪件事是肯定会发生的?

AI Agent 可以直接将代码部署到你的生产环境中,注意,不是在某个实验性的「Playground」里。

在绝大多数商业沟通场景中,语音 AI 将取代文字。

推理成本降至每百万 token 一美分以下。

或者,我们就像《机器人总动员》里的瓦力一样,过上悠闲躺平的生活。

有多少人选第一项,「将代码直接部署到生产环境」?很多人举手了。看来在座的各位工程师都非常期待,甚至乐于让 AI 来替代自己的一部分工作,这很有意思。

我们正处在一场前所未有的技术革命浪潮之中。无论是技术本身、商业模式、产品决策,还是初创公司和大型企业所面临的挑战,一切都在发生深刻的变化。我们认为,这或许也为我们这些「VC 创业者」创造了新的机会。

到目前为止,我和合伙人 Mike Vernal 投资了包括 Cursor、Cognition(Devin)、Mistral、Thinking Machines、Harvey 和 OpenEvidence 在内的一系列公司,涵盖了基础设施、模型和应用等不同层面。

过去这近三年的投资经历,对比我之前十年的投资生涯,让我有一个非常深刻的体会:我从未见过用户对新技术的接纳速度如此之快。我相信在座的各位都有切身体会。打造一款优秀的 AI 产品和进行 AI 工程开发并非易事,实际上比许多人预想的要困难得多。

但与此同时,AI 创造的价值是巨大的。我们看到许多公司在极短的时间内,就实现了从零到一千万、五千万甚至一亿美元的年化收入,其增长速度超过了历史上任何一次技术革命。

很多人问我,我们现在处于 AI 炒作周期的哪个阶段?寒冬是否即将来临,还是说我们会迎来一个无限长的「AI 之夏」?作为一个经历过完整宏观经济周期的投资人,我尝试尽量不去关注营销话术,甚至市场的短期波动。因为作为创业者或投资人,你真正关心的应该是你所投身或创办的公司能否长期成功,产品能否经得起时间的考验。而最让我感到兴奋的,是那些疯狂增长的用户数据。

接下来我将快速地谈几个:首先是 AI 的能力进展,其次是我们在市场上看到的成功案例,最后,对于那些正在思考「我应该做什么」的朋友们,我会提供一些建议。

01 要为即将到来的多模态世界做好规划

在这次分享中,我们可以用一个简单的框架来思考:「寻找下一个 Cursor」。我认为这是一个巨大的机会。

过去的一年,AI 能力最显著的突破无疑是推理 (reasoning)能力的提升。推理为通过增加算力的方式来提升模型的智能水平开辟了一条全新的路径。

各大模型公司对此感到非常兴奋,因为这意味着他们可以投入更多资金,来获得更强的模型能力。但更重要的是,模型推理能力的提升正在解锁全新的应用场景。抛开技术原理不谈,这本身就是一项能够极大增强我们对于模型信心的进展。我们可以期待更多模型能力的涌现,例如在需要「展示工作过程」的透明、高风险决策场景中,推理非常重要。此外,对于需要系统性搜索的序列化问题,推理能力也带来了全新的解决方案。这些看起来和我们日常研究、工作中面临的许多问题很类似。

随着推理能力的增强,人们对 Agent 的热情非常高,用史蒂夫·鲍尔默那种标志性的呐喊来表达这种兴奋是:「Agents! Agents! Agents!」. 我用一个非营销的定义来解释,Agent 是一种基于 AI、能够自主完成任务的软件。它能锁定一个长期目标,然后自行规划、执行多步操作,并对最终结果负责。期间,它会不断探索不同路径,并在必要时进行回溯调整。Agent 的形态多种多样,从极其复杂到非常简单。在完成任务的过程中,它可能会调用其他模型或搜索等工具。

简单来说,Agent 更像一位「同事」,而不仅仅是一个聊天机器人。在 Conviction,我们有一个独特的优势:除了少数几家核心投资组合公司外,我们还运营着一个名为 Embed 的 AI 创业公司资助计划。每年我们都会收到数千份申请,其中包含了真实的用户和收入数据。在过去一年里, 我们收到的 Agent 类创业公司的申请数量增长了 50%, 而且其中很多项目已经在真实世界中取得了不错的成果。这非常令人振奋。

模型的多模态能力也在飞速进步。我相信很多人都在使用语音、视频和图像生成工具。这些应用早已超越了「toy」的范畴,比如 HeyGen、ElevenLabs 和 Midjourney 等公司,它们的年化收入轻松突破了五千万美元,已经成为了真正的商业巨头。

比如由 HeyGen 生成的视频。你可以克隆自己或创造虚拟人物,他们的手势和表情现在能够精准地反映情感和内容要求。这些模型协同工作,创造出了非常逼真的效果。我认为,这种多模态能力将深刻影响经济的方方面面。

一些投资人或 AI 从业者可能会认为,多模态只会局限于少数垂直领域,因为普通企业目前并没有大量的语音、视频或图像等数据。但我认为这种情况正在改变。一旦你能从这些数据中挖掘出价值,AI 能赋予它们结构和意义,企业就会争相去捕捉和保存它们。视频就是最好的例子:想一想我们每天看多少视频就知道了。作为信息承载量最大的沟通方式,我们在未来只会越来越多地使用它。

我们认为, 在商业工作流中,语音将是多模态应用最先落地的领域 ,因为它本身就是一种非常自然的沟通方式。从医疗咨询到销售线索生成,这些过去已经存在但无法规模化的商业语音场景,如今都迎来了新的机会。随着其他模态的可控性增强、成本降低,我们也会看到它们在更多场景中的普及。

可以肯定的是,模型层的每一项能力都将持续进步,这对所有应用开发者来说都是一个激动人心的消息。很多人曾担心「数据 墙」或 「 AI 之夏」 的 终结,但至少在我看来,对于正在构建应用的人来说,「冬天」还远没有到来。

注: AI 之夏,AI 寒冬的反义词,这里是指 AI 领域的「黄金时代」。

实际上,模型能力市场的竞争反而正变得越来越激烈。正如 Sam Altman 去年所说:「去年的模型如今已是商品。」这句话对于模型供应商来说可能有些残酷,但去年的顶尖模型放到现在依然非常强大。数据也证明了这一点:GPT-4 的价格在 18 个月内从每百万 token 30 美元降至 2 美元,而其蒸馏版本的价格更是低至 10 美分,这使得我们可以在更广泛的场景中应用它们。

从市场份额来看,竞争格局也十分活跃。根据 OpenRouter 的数据,Anthropic 的 Claude 一度侵占了 OpenAI 的市场份额,而谷歌也凭借 Gemini 强势回归。当然,这个数据可能存在偏差,因为许多用户会直接使用 OpenAI 的服务。但如果你关注多模态领域,你会发现市场参与者非常多元化。更有像 SSI 和 Thinking Machines 这样的新玩家入场,他们拥有业内最顶尖的研究人员和独特的技术路线。

许多人也已经尝试用过 DeepSeek 发布的模型,它们在性能上颇具竞争力,而训练成本却低得多。开源社区将持续发力,模型市场会为了争取我们的业务而展开激烈竞争。

因此,我的观点是,应该 为即将到来的多模 世界做好规划 。像 OpenRouter 或 Base10 这样的工具和推理平台能帮助我们应对这一趋势。我们应该坦然接受并拥抱这种变化。

02 Prompt 是个 Bug, 不是功能

接下来我们看看应用层。

首先必须谈谈 Cursor。它在 12 个月内实现了从 100 万到 1 亿美元的年化收入,吸引了 50 万开发者用户,并且在初期没有任何销售人员。这已经不是简单的增长,而是一个「杀手级应用」。

Cognition,这家从一开始就追求更高自主性的公司,已经成为许多企业中代码提交量最高的「贡献者」。这让我感到一丝威胁,但更多的是兴奋,因为大家都知道,招一个优秀的工程师有多难。

还有备受开发者喜爱的 Windsurf,最近被 OpenAI 以 30 亿美元的价格收购。这个案例明确地告诉我们,即便是模型巨头也无法轻易「碾压」所有应用层的创新公司。

此外,在非工程师领域,Lovable、Bolt 等公司也在短短几周内各自实现了 3000 万美元的年化收入,帮助更多非技术人员也能享受到 AI 带来的便利。

我们来分析一下,为什么代码 (Code) 会成为 AI 应用的第一个突破口?

结构化的逻辑语言 :代码本质上是带有逻辑和结构的文本。许多编程工作其实是复杂的「样板代码」,属于「手艺活」而不是全新的算法创造。编写一个 API 接口或 React 组件,并不需要通用人工智能 (AGI)。

结果可以被确定性地验证: 代码是否有效,可以通过运行测试、编译和执行来自动检查,这完全模拟了开发者的验证流程。

研究人员的重视: 研究人员普遍认为,代码是通往 AGI 的关键路径。因此,他们投入了大量资源进行研发,将代码能力作为模型训练的核心基准、优先级和数据来源。

工程师最懂工程师: 我认为这是最关键的一点。工程师们为自己构建工具,他们对工作流程了如指掌,这种深刻的理解,带来了天壤之别。

最后这一点,恰恰是所有其他行业可以借鉴的成功范本。我认为 最终的赢家不会仅仅是那些学习了某个领域知识的 AI 专家,而将是那些以客户为中心、以问题为导向的实干家。 他们深刻理解 AI,并围绕模型的能力,从第一性原理出发,重新设计工作流程。

这就是我认为的「打造下一个 Cursor」的巨大机遇。

那么,具体要怎么做?Cursor 的成功并不是依赖单一模型,而是巧妙地编排 (Orchestration) 多个模型协同工作:一个负责代码对比 (diffs),一个处理合并 (merge),还有一个专门用来嵌入文件。它巧妙地处理和打包上下文,精准地向模型提供提示 (prompt),让工程师避免重复性任务,并通过「Cursor 规则」等功能实现标准化。当你或你的团队频繁使用 Cursor 时,它的检索准确性会随着数据覆盖和更新而变得更好。

所有这些功能都集成在一个符合用户习惯的界面中。比如,我习惯用 VS Code,所以我对它的快捷键很熟悉。它用绿色表示增加,红色表示删除,我可以轻松地滚动浏览代码变更,这让我有足够的安全感去点击「采纳」。同时,它的响应速度也足够快,不会让我因等待而感到沮丧。

所以,我的看法是:如果说 Cursor 是一个「壳」,那它也是一个非常精美厚实的、价值可能高达 140 亿甚至 150 亿美元的「壳」。这就好比一个墨西哥卷饼,80% 的价值在于饼皮,20% 在于馅料,但你可以自由选择馅料,而且馅料市场是完全开放的。在这种情况下, 价值的核心就不再是作为「蛋白质」的模型,而是提供完整体验的公司本身。

如果我们把这个成功配方归纳一下:

不要构建通用的 文本框(text box) 除非你只是想学习,否则不要这样做。OpenAI 已经赢得了这个赛道,或者说它的价值并不高。

利用领域知识: 你的领域知识和工作流知识就是你的启动优势。如果你已经了解行业用户的需求,就不要让他们再费力解释。

构建一个「懂行」的产品 :让你的产品一上来就显得很懂行。它能自动收集和打包上下文,这些信息不仅来自自然语言,也来自其他数据源。

做好智能编排 (Orchestration) :在合适的时机使用合适的模型。

精心呈现输出 :用最体贴的方式向用户展示结果。

我并不认为这是图形用户界面 (GUI) 的终结。你可以利用这些模型来捕捉并优化现有工作流,而这一切都需要品味和大量的努力。我认为,这种「配方」的某种版本,将是我们每个人未来工作的重要组成部分。

所以,不要听信模型厂商的说法。 用户体验 的角度看,提示 (prompt) 是一个缺陷,而不是一个功能 。 它只是一个过渡阶段。不要让用户去思考。 最好的 AI 产品感觉就像在读懂你的心思,因为它们确实做到了。在构建这些产品方面,还有巨大的提升空间,而这正是我们大多数人拥有独特优势的地方。

说到底,什么是软件公司?大多数时候,它不就是一个非常厚实的「工作流包装器」吗?无论是在 2015 年还是 2025 年,这个道理都是成立的。

03 传统行业机会更多, Copilot 的价值被低估了

除了代码领域,你还可以将这套方法应用在哪些地方?我们认为,围绕大语言模型创造价值的机会,存在于每一个垂直行业和专业领域。

但这里有一个反直觉的发现: 那些最传统、技术水平最低的行业,反而在以最快的速度拥抱 AI 我们内部称为「AI 跨越式发展效应」 (AI Leapfrog Effect)。

以我们投资的几家公司为例:

在客服领域,Sierra 已经能为像 SiriusXM 和 ADT 这样的客户,自动解决 70% 的用户问询。

在法律行业,Harvey 成立仅两年,年化收入就远超 7000 万美元。在法律行业,使用 AI 如今已成为保持竞争力的必备条件。

在医疗领域,OpenEvidence 帮助医生在临床决策时,通过智能搜索快速跟上最新的医学研究。目前,它每周能触达美国三分之一的医生,其核心用户每天都在使用。

这些例子都证明了,在 ChatGPT 之外,存在着巨大的价值创造空间。这些公司都深刻理解他们的客户,并在解决真实存在的问题。

这里分享一个大家可能不知道的趣闻:Sierra 的 Brett Taylor 是 OpenAI 的董事会主席,而 OpenAI 也是 Harvey 的种子轮投资人。如果连他们自己都不担心所谓的「套壳太薄」的问题,那我建议大家也无需过分焦虑。

接下来,我想谈谈另一个重要的观察。很多人对完全自动化的 Agent,感到非常兴奋。就像我前边提到的,过去一年,申请我们资助计划的 Agent 创业公司数量几乎翻了一番。有些人认为,Copilot 模式已经过时了,人人都想直接拥有一个 AI 同事。

但从真实的收入数据来看,真正驱动收入的仍然是 Copilot 模式。我认为 Copilot 的价值仍然被严重低估了。 这背后其实是一个从辅助到自动化的完整光谱。托尼·斯塔克的钢铁侠战衣就是一个很好的比喻:这套战衣增强了托尼的能力,让他能完成不可思议的事情,但同时也能在没有托尼的情况下,自主执行一些基本任务。

我的经验是,当一个任务的自动化程度越高、耗时越长,用户对失败、幻觉或结果不可靠的容忍度就会急剧下降。因此, 在许多领域,目前阻力最小的路径是先构建出色的增强 (Copilot) 工具,然后顺应模型能力提升的浪潮。 我的建议是:先把那套强大的战衣造出来。一旦托尼(或者我们中的任何一个人)穿上了它,你就可以逐步扩展其能力,最终让战衣能够自己飞行。

除了前面提到的,还有很多机会。比如,我的合伙人 Mike 常说,这是一个「机器审问人类」的有趣时代。如果你可以按需从人们那里收集数据,你能做什么?我们可以与每一位客户进行深度沟通,而不仅仅是那些合同额排名前 5% 的大客户;我们可以主动地对每一个系统警报进行根本原因分析,而不是永远被动地救火。这里核心的思维模式是: 假设你拥有一支由顺从且无限耐心的知识工作者组成的军队,你能做什么?

另外,我认为还有一类巨大的机会,它们的答案并不存在于互联网的公开数据 (Common Crawl) 中。这些领域包括机器人学、生物学、材料科学和物理模拟等。它们需要创新的数据收集方法,甚至需要与原子世界(而不仅仅是比特世界)互动,这对于软件工程师来说可能有些可怕。但我认为,付出是值得的。能够碾压数学奥林匹克的推理能力,同样可以用来探索分子空间。我认为,当人们投身于这些问题时,可以为人类社会解答一些非常根本性的问题。

04 真正的护城河, 只有执行力

最后一点,我们来谈谈护城河。

有人会说,要避开模型巨头的锋芒,不要在压路机前捡硬币。但我想提供一个可能不太中听的真相: AI 时代,执行力就是护城河 (Execution is the moat)。而这是我们每个人都可以拥有的。

Cursor 并没有发明代码补全,没有发明底层基础模型,甚至没有发明它的产品界面。但它在每一个维度上都执行得比竞争对手更好。它比对手更快地交付了卓越的体验,从而赢得了开发者的心。

与之形成鲜明对比的是 Jasper。它拥有先发优势和品牌,也融资了 1.25 亿美元。但它的第一个产品只是一系列提示词和一个文本框,再加上非常出色的搜索引擎优化 (SEO)。你必须不断奔跑,因为 ChatGPT 很快就碾压了它的第一代产品。

所以,这可能不是一个让人听了很舒服的建议,但它确实是来自一线的真实感悟: 构建一个「厚实」的产品,并保持领先。没有任何领域是禁区。

好的 AI 体验可以建立客户信任,从而推动产品的普及。而要持续改进这些体验,你需要大量的数据和上下文,这些恰恰是无法轻易从公开渠道获得的。这种基于私有数据和深度工作流的优势,正是留给应用构建者的机会,而不是模型巨头。

总而言之,我认为机会尚在早期,且极其巨大。我把我的职业生涯都押注于此,我相信在座的许多人也是如此。我们正处于 AI 的「拨号上网」时代,并且正在迅速向「宽带」时代迈进。Instagram 在 iPhone 诞生四年后出现,Uber 是五年,DoorDash 是六年。那些真正具有变革性的公司,不一定是第一个发现变革或机遇的人,而是那些重新构建了用户体验的人。

而这一次的不同之处在于,游戏规则在不断被重塑。这就好比每 12 个月,你就能得到一部性能和功能完全不同的新款 iPhone。新的模型发布、新的能力突破、成本大幅下降……每一次游戏规则的改变,都意味着有再次获胜的机会。

来源:晚晚的星河日记一点号

相关推荐