摘要:3 月 6 日,真格投资的 Monica 发布的 Agent 产品 Manus,虽然还在内测阶段,就引起了大量关注。在期中,雨森提到了 Monica 即将会发布一款 Agent 产品,那时候我们还不知道 Manus 将会席卷社交媒体。当我们把一个任务交给 Ma
“两瓶茅台的价格体验未来,太划算了。”
嘉宾丨戴雨森
整理丨刘倩 程曼祺
本期播客,是《晚点聊》与真格基金管理合伙人戴雨森长聊 AI Agent 和 AI 趋势。
3 月 6 日,真格投资的 Monica 发布的 Agent 产品 Manus,虽然还在内测阶段,就引起了大量关注。在期中,雨森提到了 Monica 即将会发布一款 Agent 产品,那时候我们还不知道 Manus 将会席卷社交媒体。当我们把一个任务交给 Manus,过了十几分钟收到完成的结果时,似乎真的感受到了一点 Attention is not all you need 的未来。
带来 Agent 等 AI 行业新变化的起点,是去年至今的两个重要节点:o1 和 R1。
o1 在大语言模型中引入强化学习,开启 Pretraining(预训练)Scaling Law 之外的 Post-training(后训练)和 test-time-computing(即推理阶段的计算)阶段的新 Scaling Law,让模型推理能力大幅提升。我们之前在第 80 期节目中也有详细讨论 o1,当时业界还普遍猜测 o1 用到了蒙特卡洛树搜索等方法。
与 o1 同为推理模型的 DeepSeek R1 强势开源,以极低的成本,和后续引发的巨大全民影响力,让很多人重估了大模型行业当前的最重要课题:提升模型能力。R1 的开源和同期发布了详细技术报告另一个推理模型的 Kimi-k1.5 ,也明确告诉整个领域,一些方向是 “此路不通”,他们都没有使用蒙特卡洛树搜索等方法。
戴雨森详细分享了他对 Agent 机会的当前观察,以及在 DeepSeek 带来的开源生态的变化中,大小 AI 公司的新动作和调整。
O 系列解锁 Agent 应用,DeepSeek R 系列是开源的胜利、专注的胜利、本土年轻团队的胜利
晚点:过去将近 6 个月,AI 领域最重要的两件事,一是 OpenAI 去年 9 月 o1 发布,另一个是近期 DeepSeek 在发布 R1 后掀起全民狂潮。我们可以从这两个事儿开始聊。你怎么看 o1 和 R1 分别的意义?
戴雨森:我觉得 o1 首先让大家看到了 Reinforcement Learning(强化学习)应用于 Post-Training(后训练)带来的推理、逻辑能力等智能提升。后来 o3 发布,又证明沿着 o 这条技术路线,模型能力还能持续提升,它的边际效益还很远、空间还很大,现在有消息说 o4-mini 也训练完了。其实之前头部公司或多或少也了解到强化学习挺有用,但 o1 出现后,大家才确定这条路真能行得通。
o 系列模型带来的推理能力提升,是解锁 Agent(智能体)这种产品形态的关键。因为如果模型思考能力不够强,它就没法自主使用工具、制定计划、检查自己的工作有没有完成。所以得先靠 o 系列提升模型的思考能力,才能解锁新产品形态。
晚点:据你所知,o4 相比 o3,主要的迭代是什么?
戴雨森:据说 o4-mini 的推理时间可能达到几个小时级别。我们常说训练模型,其实就跟培养一个更聪明的人差不多。优秀的人类和一般人类的区别是什么?为什么博士论文要写 5 年?因为一个博士他可以通过 5 年的时间得到一个更好的、更高价值的工作。所以首先这个人基础素质要好,其次还得有足够的时间。
晚点:那么 R1 的意义呢?某种程度上,它的影响力超过了 o 系列,R1 是全民都在讨论的话题。
戴雨森:R 系列确实是一个世界级的工作,给了我们非常多启发。
第一就是开源 VS 闭源。当它选择开源,大家就能了解模型的训练过程。在 R1、V3 的训练论文里,我们看到了大量 OpenAI 早就知道,但公众此前并不知道的事。比如 DeepSeek-R1-Zero 证明了,在不用 SFT(监督微调)的情况下,仅基于基础模型 V3 进行强化学习,就能让模型输出更长的长度、获得更好的智能,实现推理的 Scaling Law。不用 SFT 是个很重要的创新。
之前很多人在探讨 o1 时,会思考是不是可以通过 MCTS(蒙特卡洛树搜索)这种搜索方式去实现?但 DeepSeek 很慷慨地分享说,他们试过这些方法,都行不通。其实很多时候,知道一条路走不通是很重要的。
我最近学到一个词,叫 “一比特信息”,意思是有些关键信息,一个比特就足够传达了。我觉得 DeepSeek 这篇论文厉害之处就在于,它给大家提供了这些 “一比特信息”,比如之前很多人在探讨 o1 时,会思考是不是可以通过 MCTS 这种搜索方式去实现?但 DeepSeek 很慷慨地分享说,他们试过这些方法,都行不通。其实很多时候,知道一条路走不通是很重要的。这种 “一比特信息” 也反映出硅谷和中国的差距,硅谷可能还有一些 “一比特的信息” 我们不知道。其实 2024 年年中,在硅谷,强化学习走得通已是一线实验室的共识,但这个信息传到中国可能要到 o1 出现后。
开源的作用还有,我们看到微信、百度这些原本就有自己模型的公司,也因为 DeepSeek 开源接入了它,这能使更多人能用上好模型。比如我们投资的 Monica,最近推出的国内版也用上了 R1,开发者们手头的 “武器” 更丰富了。开源还能促进整个行业更快发展,大家可以互相学习、共同进步。所以这是开源带来的胜利。
第二,我觉得是强化学习的胜利。OpenAI 并没有公开 o1 训练的具体细节,但 R1 让大家看到,强化学习这条路真的能走很远。
第三,R1、V3 以及整个 DeepSeek,都充分证明了专注的重要性。在资源受限时,大家反而能想出更具创造性的解决办法。比如,用 MoE(混合专家系统)是一种节省资源的方式,要是用传统的稠密模型,推理成本和训练成本都会高很多。这说明,资源限制往往能成为创新的动力源泉。
DeepSeek 也是一家在研究方向上做了很多选择的公司。2023 年,很多人都在做多模态生成、AI 虚拟女友,也有不少人专注于开发 to C 产品,但 DeepSeek 没有跟风。他们直到 R1 发布之后才推出自己的 App。虽然 DeepSeek 已经拥有很多卡、钱以及很优秀的人,但他们依然专注于提升模型的基础能力,把力量集中在一个方向上。
同时,DeepSeek 也让我们看到,年轻的 AI-native 团队有能力跟规模更大、资源及用户更多的大厂 PK。DeepSeek 虽然不是普通意义上的小公司,但相对来说,它还是比较年轻的团队,团队里很多成员都是中国本土培养的研究生、博士生。这让大家对中国的人才体系充满信心。
还有一点对我来说也很重要,DeepSeek 证明了在技术革命早期,如果能通过技术进步为用户带来全新的、像魔法般的体验,就会收获意想不到的成果,同时也会涌现出商业模式。
很多人第一次使用 DeepSeek-R1 的推理模型时,看到它输出的结果,会觉很棒。这会引起自发的传播,带来了大量自然流量。没有投入一分钱广告费,就获得了几千万的日活跃用户(DAU)。同时,它的 API 也供不应求,甚至很多人主动提出希望能有一个付费稳定版的 R1 模型。所以我觉得,在技术革命的早期,要坚持技术突破、在智能上领先,而不是在已有的智能上进行产品和运营的雕花。
晚点:这已经是共识了吗?
戴雨森:2023 年到 2024 年期间,就有很多研究者表达过 “智能很重要,不要在已有的基础上雕花”。但我觉得大家需要一个实际的、鲜活的例子。在 2024 年 DeepSeek-R1 出世之前,大家都过于关注互联网时代的指标,比如 DAU、用户留存率以及用户使用时长等。就拿当时很火的 AI 虚拟女友和 AI 打电话功能来说,为什么会有那么多人热衷于开发这类产品呢?原因就在于,从数据上看,这类产品的用户留存率比较高,用户与它们互动的时间也很长。毕竟和 AI 打电话,时间自然就拉长了。但这真的能代表智能提升吗?至少我个人觉得,这更多是满足了用户的情感需求,并不是智能的提升。如果把时长、DAU 作为优化指标,就不会去做 Deepseek 这样提高智能的产品。
在中国互联网领域,一直存在着不少争议。大家都知道企业服务的土壤不足,而且似乎用户更愿意为 “杀” 时间付费不为省时间付费,所以大家都习惯性的寻找下一个字节跳动。我在 2024 年 10 月给我们的 LP 做汇报时就提到,未来可能不会再沿用字节跳动的公式,因为字节跳动是通过占用用户时间去赚钱的,然而用户的时间是有限的,抖音、王者荣耀等已经占据了用户大量的时间。所以,接下来具有创新性的 “杀手应用”,可能会是那些能够帮用户节省时间,或者在这 8 小时、 16 个小时以外去给用户创造价值,而不是一定要把刷抖音的时间抢过来,那是很难抢的,抖音很厉害。在这种情况下,DeepSeek 就成为了一个很好的范例。
Agent 解放人的注意力,带来 “资本转化为生产力的 Scaling Law”
晚点:以 o 系列和 R 系列为代表的推理模型,接下来会带来哪些行业和应用变化?有一点你之前已经提到过——推理能力的提升,会指向 Agent 应用,这也是从去年下半年到现在大家频繁讨论的话题。
戴雨森:按照我们刚刚讲的框架——技术进步解锁新的产品形态。我们可以看到,GPT 3.5 解锁了 Chatbot(聊天机器人);以 Sonnet 为代表的 编程能力很强的模型,解锁了像 Cursor 这样的编程助手。而 o1 及后续的 o 系列模型的进展,让模型的推理能力变得很强,解锁的产品形态,我觉得可能就是 Agent。
什么叫 Agent?在英文里 “agency” 有主观能动性的含义。以前地球上只有人类具备主观能动性,我们清楚自己的目标,能制定计划、使用工具、评估工作成果,这也是人类能统治世界的原因之一。但现在 AI 能力逐渐到达了一个突破点,使 AI 能扮演 Agent。在我看来,这是由三个技术进步解锁的:
第一是推理(reasoning)。推理能力是 AI 的基础智能,如果推理能力不足,AI 就无法明确自己的任务目标,难以制定出切实可行的执行计划,更无法判断自己是否完成了任务。
第二是编程(coding)。在数字世界,理解 code、写 code、完成各种任务是基础技能,是赛博世界的 “语言”。
第三是工具使用能力(tool use)。在数字世界,人已经为自己造了这么多工具和软件,那 AI 要想充分发挥作用,首先得适应人类用的这些工具,比如能用浏览器和网站来获取信息。
过去 12 个月里,这三种能力都发生了翻天覆地的变化,进入指数增长的阶段。为了衡量这些能力,业界有一些不同的 benchmark(基准测试)。以推理能力为例,我们常用 GPQA 测试,这是一种模拟人类博士生入学资格水平的测试。在这个测试中,普通人类大约能得 20 多分,人类博士生能达到 60 分左右。在 2024 年年初,最前沿的大模型仅得十几分。但如今,像 o3 这样的模型,已经达到了 70 多分,涨得非常快。
在衡量 AI 编程能力时,大家常用 SWE-Bench 进行测试,它抽取了一系列 GitHub 上真实的人类编程任务。在 2024 年初,4o 得分只有个位数,基本是不可用的状态。但现在,o3 已经到了 70-80 分,这意味着人类 70%-80% 的编程任务 AI 都可以解答。
AI 能力的快速发展已经给我们带来了一个新的问题——我们很难再找到合适的题目来测试 AI 了。前段时间,陶哲轩(知名数学家,菲尔兹奖得主)提出了一个名为 Frontier Math 的测试,里面最简单的题目都是 IMO(国际数学奥林匹克竞赛)级别的难题。当时大家认为,这些难题至少能够挡住 AI 几年,结果现在 o3 在 Frontier Math 测试中已经能拿到 25 分,o4 的表现应该会更好。Alexandr Wang(Scale.ai 创始人)弄的那 “Humanity's Last Exam” 的问题,现在模型也能拿到 20 分了(满分 100 分)。
所以一旦强化学习应用到某个领域,AI 能力的成长曲线常常呈指数式增长。就像之前 AlphaGo 出现,它用强化学习技术,在围棋上取得了巨大突破。后来,DeepMind 开发的 AlphaStar,在《星际争霸》中,也凭借强化学习迅速超越了人类顶级玩家。还有自动驾驶技术,其实从技术层面讲,它已经比人类驾驶安全很多倍了,只是由于各种监管因素还没大规模应用。
我把这种 AI 能力超越人类的标志性时刻称为 “李世石时刻”。李世石与 AI 进行围棋对决时,大家发现,AI 原来连最强的人类都能轻松打败。
晚点:当人类很难,甚至不再能评价 AI 的能力,会带来什么?
戴雨森:其实现在已经有一些苗头。比如春节期间有一篇文章,据说是梁文锋发在知乎上回应冯骥(游戏科学创始人)的,非常火,后来大家发现那是 DeepSeek 写的。
另一方面,现在 AI 的研究能力就已经能给人很多帮助了。我最近一直在用 OpenAI 的 Deep Research,带来了很多震撼。其实 Agent 的第一个应用场景就是帮我做研究。我向它提出一个问题,它得思考如何解答、列出研究计划、寻找资料、做总结和对比。
从原来没有推理能力的 4o,到 o1、o1 pro,能进行更深入的思考,再到 o3-mini high,然后又有了 Deep Research。整个过程也就 3-6 个月,但我明显感觉到它的水平指数级提升。
昨天我就在想,要是从大街上随便找十个人,至少九个已经比不上 Deep Research 了。因为 Deep Research 能在几分钟内,针对任何你需要的话题,给出一份在我看来达到在较好公司工作一两年的白领水平的研究报告。所以我觉得 AGI 已不再是一个科幻概念。现在在收集信息、整理信息这类任务上,AI 已经超过了大多数人。
晚点:这会带来什么创业机会的变化?
戴雨森:Agent 最大的意义,在于在人类历史上,所有事情基本都需要人的 Attention,只有一种情况例外,就是机械自动化,但它没有主观能动性。而 AI 技术进步带来了一种不需要人类的注意力,又能自主执行任务的可能。
不夸张地说,这是人类诞生以来最大的进步。如果说人和其他动物的区别在于人会使用工具,而以前人用工具时都需要 Attention,直到现在有了 Agent 这种不需要 Attention 的工具。比如我把问题丢给 Deep Research,它自己研究 5 分钟,这期间我不用 Attention。
这带来的改变是,过去所有互联网产品模式,我觉得可以用一句话来概括,就是 “Attention is all you need”(注意力就是你所需要的一切)。
不管腾讯还是字节,它们核心都是看有多少用户在自家产品上花了多少时间,这可以用一个公式来表达:时长 × 用户数 × 变现率。但这件事是有上限的,毕竟总共就这么多人,每个人一天就这么多时间,所以很难把用手机的时间再提高一倍。于是大家就想提高变现率,这就变成了抖音的视频广告、直播,但这条路也有尽头。
而现在可以提出一句新的话:在 Agent 时代,“Attention is not all you need”。当人类的 Attention 不需要再被使用的话,它会解锁人类无限的潜能。这就好比老板让员工做事,就不用 Attention。
以前大部分人都是执行别人 Attention 的结果,只有少数人是老板。但现在 AI 越来越强大,每个人都能当 AI 的老板。那让 AI 做什么就是一个很重要的问题。我觉得这对社会、教育都会有重大影响,不过我相信,等大家适应了这种范式后,会发现有更多事可以交给 AI 做。
进一步延展,我觉得我们可能会看到一种工作的 Scaling Law。其实现在工作、生产力不太容易被简单地扩大,比如一家大厂,即便有 100 亿甚至 1000 亿资金,也不能直接把这些钱转化成生产力,还得招人、培训,人多了还会内斗,所以有钱不一定就有生产力。
但如果 AI 模型越来越强,模型的推理能力也不断提升,你会发现有钱就等于有算力,就能让 AI 产生更多生产力,这就是资金转化为生产力的 Scaling Law。
晚点:世界上需要这么多生产力吗?
戴雨森:汽车和飞机发明之前,人们也会觉得,要去隔壁村,走路就行了,为啥要坐飞机呢?至少历史已重复验证了这一点,新技术会创造新需求。
晚点:如何确信这会重复发生?其实相比人类物种的历史和漫长古代史,人类技术爆炸的时间也就四、五百年。
戴雨森:这是个更有意思的点。原来人类的技术爆炸以 一代人 为单位,现在技术爆炸的周期已经缩短到了十年以内,从 AlexNet 问世到现在不过 13 年,ChatGPT 到现在不到 3 年,一代人的生命周期里就会经历几次技术爆炸,人们可能很难适应,这势必会对社会产生很多影响。
其实指数增长本来就是世界的常态,但在最后陡峭的曲线出现前,它看上去很像线性增长, “gradually, then suddenly”。这也是关注 AI 安全的人如此担心的原因,现在大家都觉得已经进入指数增长阶段,这就不叫未雨绸缪了,已经开始打雷、快下雨了。
一方面,就如 Sam Altman 所说,一人公司会变得强大,如果一个人能很有效的指挥 AI,通过 AI 指挥 Agent,那他可能创造很大价值;另一方面,以往创业者之所以有时能打败大厂,是因为他们能更高效地把资金转化为生产力,因为他们有更敏锐的 vision、更努力、没有组织阻力。但假设大厂投入大量资金去用很厉害的创业 Agent,那普通创业者可能就难以与之抗衡了。这可能导致富人更富,因为富人能买来更多生产力。过去,一个人固然有钱,也可能比不过一个聪明的年轻人,但未来情况可能会不同。
晚点:这是两个方向,一个是超级个人,一个是像科幻电影里的反乌托邦 那样,资源汇聚到巨型公司。
戴雨森:所以 AI 带来的变化是很大的,不管是从生产力角度,还是社会结构角度。不过,要解锁这些变化,前提是模型能力得提高。
所以我在想,在技术革命早期找到第一个 PMF(产品市场匹配),有时就像是个甜蜜的陷阱,甚至可以说是诅咒。
比如移动互联网,黑莓算是第一个找到 PMF 的。当时处理器弱、网络慢,所以它觉得只能搞发邮件、发黑莓消息、收推送这些功能。为了做好这个 PMF,就做了带键盘的黑莓手机,还以键盘为傲。可后来技术进步,处理器更强、网络更快、屏幕更大了,苹果直接不要键盘,做全触屏手机。那时黑莓还觉得没键盘打字肯定不好用,这就是 PMF 的诅咒,当技术升级,就被自己的 PMF 困住了。
互联网也有这种情况。雅虎是互联网领域第一个找到 PMF 的公司,搞的是门户模式,把信息列出来给用户看,有大量内容,得点进去看。后来搜索引擎 Google 出现,它就一个搜索框,直接输入就行。其实雅虎曾有机会收购 Google,可惜出价不够高,最后被 Google 颠覆了。
聊天机器人(chatbot)可能也是个甜蜜的陷阱。现在有这么多 chatbot,大家可能就想在这个基础上优化。但我一直觉得,chatbot 可能会限制前沿 AI 模型的能力。比如你和 ChatGPT、Kimi 或者豆包聊天,会像在微信上那样进行碎片化的短对话,模型的智能不一定能体现出来。但如果要给 Agent 一个指令,很多时候就得写更复杂的描述,得完整阐述要做的事、目标和条件,要进行完整沟通。
我之前跟 OpenAI 的同学聊,他们发现先进的模型在和用户聊天时,并没有让用户满意度提升太多。这就有点像跟人在微信上聊,你跟一个普通大学生和一个科学家聊,感觉差别不大。但要是让他们写论文,那就是 0 和 1 的区别。所以 chatbot 这种早期容易被大家接受的形态,不一定是能走到最后的产品形态。在这个基础上做短期指标优化,可能就会想法让大家停留更久,比如出个打电话功能。但打电话和智能提升是一致的?把电话打好,可能靠的是语气、情商,跟智能和提升生产力没关系。
两种 Agent 形态:“只读 Agent” 和能 “写” 的 Agent
晚点:如果按照你说的工作 Scaling Law 的逻辑,在 2025 年,第一批出现的 Agent 会是什么样的产品呢?
戴雨森:第一批,我觉得是像现在最火的 Deep Research,解决研究、分析需求,我把这叫 “read only Agent”(只读 Agent)。
不光 OpenAI,最早是 Google 接着 Perplexity 都推出了 Deep Research ,好多创业公司也打算做这个方向。因为大家发现,让 AI 更深度地研究信息、获取更多资源,再决定下一步获取什么样的信息,形成循环,最后给出一个研究报告,这就是我们平时让分析师干的事。为什么它是 “只读”,就是它只做读取操作,不做写的操作。这类产品的 PMF 已经很明显了,我用 Deep Research 确实比实习生干得还好,付费意愿和使用场景都很明确。
第二步就是从读到写。OpenAI 推出了 Operator,Anthropic 推出了 MCP(Model Context Protocol,模型上下文协议),其实都是在让 AI 使用工具。
我们投资的 Monica 就在做类似的产品—— 现在大家知道了,它叫 Manus。昨天他们跟我分享了一件很有意思的事,比如说有个测试问题,要获取美国某地,比如凤凰城的地铁时刻表。这个模型先去官网查,发现链接打不开,这时候它直接调用邮件客户端,给凤凰城市政府发邮件询问,最后走到了确认是否发送邮件这一步,它完全能自主做这些事。
这里面有很多有意思的特点。比如 AI 能主动使用工具,调用浏览器,还有自己的 “电脑”。以前很多人觉得,像国内 AutoGLM 这类应用,是让 AI 操控我们的手机,比如在我们手机上点外卖。但仔细想想,助理干活是用自己的设备还是用你的设备呢?肯定是用他的。所以应该是我的 AI 助理在云端,有他自己的手机或电脑,然后用他自己的设备给我点外卖,而不是用我的手机,毕竟我自己还得聊微信、刷抖音。这其实就是虚拟化技术。
晚点:在权限上,Agent 还是得用你的账户体系吗?
戴雨森:不一定,你可以给 AI 配一台它自己的 “电脑”,这样你可以让它用你的账号,也可以给它单独的账号。
你会发现,当 AI 能使用工具时,它能做很多事。大部分软件工具的使用方式,要么是调 API,要么是操作软件界面本身。所以 Kimi k1.5 里的多模态推理很重要,特别是在使用软件界面时,要看懂网页才行。现在大家都在说用世界模型去理解世界,这其实挺难的。比如我们看东西能知道物体有前后、有深度,但现在 AI 识别深度信息还表现一般。但要是只是操作电脑和手机界面,AI 能做很多很多事。
我再举个例子,当 AI 遇到问题时,理论上它可以发帖求助,甚至可以悬赏让其他人或机器帮它做事,因为它已经和支付商绑定了。这不是科幻情节,现在完全能做到。而且我们发现,强大的 AI 模型能想出很多人类想不到的解决问题的思路,比如 AI 会想,能不能换个问题,或能不能获取原本没有的权限。
不过这也有安全隐患,因为 AI 为了解决问题,可能会带来一些伤害。我自己碰到过一个典型例子,我用 Windsurf 让 AI 做一个网站示例,它部署这个网站时,说有两个进程占用了端口,要把它们杀掉,我当时同意了。可后来一想,万一杀掉后系统崩溃了怎么办。当然这些问题是可以对齐的,但存在潜在风险。
这种具备 “写” 功能的 Agent,一旦做好了能力很大,但普及起来会更慢,因为它可能带来的后果也很大,需要对它进行大量监控、训练和对齐,还要防止它被滥用。
所以我觉得 “读” 的 Agent(普及)会比较快。“写” 的话,Operator 是个例子,你用它订机票,会发现它还不如自己订得快,每一步都要你确认。
不过在 AI 领域,慢的问题总能解决。从慢变快、从贵变便宜,是 AI 行业一直在发生的事。可以想象一下,要是原本助理需要花 30 分钟完成的事,AI 一秒钟就能搞定,那每天能多做多少事?这对大家的冲击会很大。
晚点:这个进阶的过程,是不是就是 OpenAI 之前定义的五个 AGI 阶段?Agent 后面是创新者,再后面是组织者。
戴雨森:对,这里面又会衍生出几个问题。最简单的一个就是,现在是人指挥 Agent,那能不能实现 Agent 指挥 Agent。假设每个任务都能在一秒钟内完成,那人类提问题的速度都跟不上 AI 了。
晚点:以后做采访提纲,可能就我们的 Agent 对接雨森的 Agent,然后它们就把提纲写好了。
戴雨森:这完全有可能实现,不过有个重要问题,就是 memory(记忆)。现在你用 ChatGPT 和我用 ChatGPT 回答同一个问题的结果差不多。但如果是和我相处了几年的助手,除了公有信息那部分外,回答问题肯定和你的不一样。这样咱俩的 Agent 才能有内容可聊,因为我们都有我们自己的 memory,但现在这个 memory 机制还非常初级。
我觉得记忆特别重要,但大家都还没做得特别好。就拿 ChatGPT 来说,它所谓的记忆,其实就是跟你交流时形成了一个系统提示(prompt),比如记住 “这个人有一条狗,这个人是个大学生” 之类的,这很简单。但实际上,真正的记忆非常长,而且这些记忆有的是你跟它对话时主动灌给它的,有的可能是它通过其他方式获取的。总之,记忆会是很关键的一点。
还有 Online Learning(持续学习)也非常重要。现在 AI 模型更新权重还得重新训练、发新版本。但人,不管是通过读书还是社交,都能不断学习,主动改变大脑里的 “权重”,不需要经过重新预训练。
还有很多很有意思的前沿探索。比如现在 Agent 用的是人类的工具,但如果它比人类聪明十倍、快十倍,为什么还要用人类的工具呢?所以,可能会有一系列专门为 AI 设计的工具,AI 专用工具以及 AI 如何迭代自己的工具都值得研究。说不定到时候,AI 的工具我们人类都不会用,就像很多人不会用 EDA 一样。
晚点:行业发展真的很快,其实我们两三个月前聊 Agent 时,你还会提到编程助手类的产品,它好像现在不在你的 “只读” 和 “写” 的 Agent 产品形态框架里了。
戴雨森:我觉得 Agent 和 coding 的关系,第一步是去做 coding Agent,像 Cursor 或 Windsurf,这是目前 Agent 比较容易落地的场景。
但我觉得更进一步是 Agent that can code,比如说你的助理如果能写爬虫,就能帮你搜集更多信息,相当于你的 Agent 掌握了编程这项技能。我觉得这会是接下来更大的发展范式。
而且像 Cursor、Windsurf、Devin 等开发工具主要面向的程序员在人群中占比有限,那对于更多非程序员的知识工作者来说,给他们用的 Agent 必须会写代码,因为只有靠写代码才能在赛博世界行动自如。
“瓶颈徘徊” 和 “直道狂奔” 交替出现,创业公司的机会是去做大厂忽略的事
晚点:你觉得好的 Agent 更多会来自应用公司,还是来自像 OpenAI、Anthropic 这样有强大模型能力的公司?
戴雨森:目前看,模型公司确实能利用 RL 提升模型能力,用更强大的模型优化自己的 Agent,它们可能确实有优势。
不过应用公司也有几个好处:第一,它能混用多种模型,发挥各模型的长处;第二就是用户心智方面,就拿 Perplexity 来说,它一开始做 AI 搜索,占据了用户心智,它用的模型在不断升级,多数用户就觉得它是 AI 搜索的代名词。Cursor 也是个很好的例子,一开始大家觉得它是套壳,但实际上它和模型相互成就。要是没有 Sonnet 3.5,Cursor 不会那么火,也实现不了预测下一步代码的功能;而要是没有 Cursor,Sonnet 3.5 也缺少一个让它火的载体。
晚点:你之前提到 Monica 在做一些 Agent 产品,他们也是基于别的模型或者开源模型来做的,是吗?
戴雨森:他们不自己训练大模型,会做一些微调。如果不延期的话,他们下周会发布一个很有意思的 Agent 产品(Manus 于 2025 年 3 月 6 日开始内测)。我们觉得,当你能使用模型,让模型去使用工具,再做一系列巧妙的产品设计,其实能带来很不一样的体验。
晚点:你刚才还提到,Chatbot 这种形式作为大模型的第一个 PMF,可能是个 “甜蜜的陷阱”。那在 Agent 这种形态上,会不会也有 “陷阱” 的部分呢?我是指哪些对 Agent 的优化可能会让你分心,或者拖慢你极致逼近 AGI 的脚步?
戴雨森:Agent 的 “陷阱”,我还没想得特别清楚。但我有个感觉,如果现在有个 AI 产品用户量很大,为了服务好这么多用户,可能在模型尺寸和能力上就得做妥协。举个例子,要是用户特别多、模型很大,在中国大家觉得收费也比较难,如果免费给大量用户提供一个推理成本很高的模型,那肯定不划算。这时可能就得把模型做得更轻便一些,但更轻便的模型会不会和追求 AGI 有冲突呢?
所以我觉得,当 DeepSeek 有这么多用户时,很多人讨论要不要留住这些用户,我认为其实这也是个 “甜蜜的陷阱”。它有几千万 DAU,而且世界各地用户的使用场景各不相同,要把他们服务好,不管是算力、产品设计还是运营上,都得投入大量的精力,我觉得这会影响探索 AGI 的资源,毕竟资源不是无限的。
晚点:现在看起来,DeepSeek 好像并没有有意去留住用户。
戴雨森:我认为这是正确的,这样才能跟微信合作。如果 DeepSeek 也想借这个机会做一款超级 App,那微信估计很难跟他们合作。
晚点:其实我想到一个 Agent 可能的 “陷阱”,是多模态。不过我觉得做 Agent 的话,更相关的是多模态理解,而不是生成。
戴雨森:我觉得多模态肯定很重要,但目前它对智能的提升没那么快。因为语言是一种非常浓缩的智能,依靠语言来提升智能是一条比较快的途径。要是语言这方面研究得差不多了,接下来就是图像。
图像里信息量很大,但包含的智能却不多,要看多少视频才能总结出牛顿定律?所以我觉得视频更多是在具体应用上发挥作用,在提升智能上,目前它的信息压缩率还不够高。
晚点:那为什么大家都在训多模态模型?
戴雨森:这分两种情况。第一种是像 Sora 走的多模态生成路线,这有明确的 PMF ,因为全世界那么多视频广告,像现在很火的游戏广告 “做饭大橘猫”,这类做得差不多就能变现。
可灵、海螺这些视频生成模型,效果也挺好,反而现在看 Sora,起了个大早,最后却没那么惊艳。还有 Midjourney,它都没融资,就已初步实现了 PMF,自然就有人去做。
但现在大家普遍觉得,视频生成在提升智能方面可能不是最重要的,大家还是往推理方向上 “卷”。这就像走路,当你眼前有一条明确的路时,很多人就会先选这条路。
所以在 AI 领域,我们会不断经历探索和奔跑交替的过程。当遇到瓶颈时,你会发现之前那些看似漫无目的的分支探索说不定能带来突破。所以从公司角度看,一方面得 “直道狂奔”,另一方面,也要有这种 frontier 探索,因为不知道未来会发生什么。
晚点:所以说还是得大公司更有资源来做 AI 吗?
戴雨森:得看现在处于哪个阶段,以及这个阶段会持续多久。如果处于需要创新的阶段,那创业公司有可能通过不同的 vision 去避开大厂的竞争。但如果现在就是 “直道狂奔”,那肯定是谁有钱、谁有卡,谁就更容易往前冲。创业公司的长处就是去做那些大公司没看到的事情,如果都 “明牌” 了,那大公司更有优势。
晚点:我们刚才讨论 Agent 在 2025 年可能会普及的时候,其实没特别提到成本这个维度。成本降低是不是推动 Agent 发展很重要的点?
戴雨森:当然,而且我相信成本降低是一定会发生,Agent 的能力也会不断变强,但中间遇到瓶颈、碰到卡点也是完全有可能的。所以我觉得,得先让它能用,再让它变得好用,最后变得便宜。
而且在中国和美国,Agent 落地的难度也不一样。美国人工成本特别高,所以像 Devin 当时定价是每小时工作 6-8 美金,而美国加州平均最低工资是 16 美金,就算去麦当劳打工一小时都得 16 美金。第一是很便宜,第二是一年之后它能力会更强。所以在这种习惯为企业服务付费的环境下,是合理的。
我自己也是 GPT Pro 每月 200 美金套餐的订阅用户,其实就是两瓶茅台的价格,但可以让你体验未来,我觉得太划算了。它能让你做 100 次 Deep Research,每次 2 美金。要是让实习生做,首先我不可能半夜两点要求他五分钟内给我一份报告,而且他做出来的报告基本没有 Deep Research 好。
威廉·吉布森说过:“未来已来,只是分布不均” 。我觉得现在那些已经在使用前沿 AI 或者用得很好的人对未来的想象,和很多第一次用 Chatbot 甚至还没用过的人,是非常不均匀的。我真的觉得,在文书工作方面,AI 替代人已经不是想象,而是正在发生的事。
晚点:那你觉得在 RL 解锁 Agent 之后,下一个技术范式变化可能是什么呢?
戴雨森:首先我觉得 RL 可以走很远。其次,我认为接下来很重要的一点是发现新知识。Anthropic 的创始人 Dario 写了一篇文章叫《Machines of Loving Grace》,他提到未来 AI 要再进一步,就是如何发现新的科学、获取新的知识,这也在 OpenAI 的五级分类里,就是第四级 innovator(创新者)。
因为大量的科学发现通常是先提出设想,再通过实验去验证。在设想这方面,AI 可能已经做得很好了。但在验证环节,有时需要观察,有时要进行物理、化学或医疗实验,这方面可能会受一些限制。如果我们能找到一种方法,大规模并行地开展实验,来验证 AI 提出的假设是否正确,包括有些像数学定理这类的,还能通过纯思考产生新知识。那从这一步来看,AI 可能就会进入一种 “左脚踩右脚” 的状态,它产生新知识,再用新知识来自我改进、自我进化。
但到那时候,产品形态可能又会不一样。大家可能不再只想着让 Agent 干很多活儿,而是希望能有癌症治疗方法,甚至能研发出长生不老药。
开源不是所有公司必选项,DeepSeek 的独特性在于中立性
晚点:刚才聊了 o1 的一大意义是解锁 Agent 产品形态,这几个月,另一件对竞争格局影响很大的事就是 DeepSeek 的出圈,它采用了非常彻底且一贯的开源。大厂和其它创业公司的处境与动作都在调整,比如说腾讯元宝、百度文心这两个大厂 AI 主力产品都接入了 DeepSeek。阿里通义和字节豆包都暂时没有接入。你觉得豆包会接 DeepSeek 吗?
戴雨森:如果豆包接入 DeepSeek,我会觉得很意外。因为在我看来,字节特别想探索智能前沿智能,很注重自己基础模型的研发。要是接入 DeepSeek,不管是对外形象还是对内士气,都是一个挺大的改变。
但从另一个角度说,如果豆包的用户觉得 DeepSeek 更好用,那从用户价值的角度看,接入也是合理的。不过我觉得这肯定不是字节做 AI 的初衷,他们还是想在 AI 领域实现全面领先,而且他们的人力和资源都很丰富。
晚点:那腾讯呢?
戴雨森:有人说腾讯做短视频是后发先至,让别人先跑三年,反正微信用户这么多,始终都能跑出来。之前就听说,腾讯在大模型这块也抱着后发制人的想法。因为它有用户关系、用户数据,大家又都离不开微信,它可以等模型技术收敛或成熟后再接入。而且微信是基础设施产品,不能做太大调整,不然会给用户带来很多影响。所以我倒是觉得腾讯接入 DeepSeek 这件事很值得点赞。因为微信里的 AI 搜索去年就在推进了,但接入 DeepSeek 这个决定肯定是腾讯高层做出的。这对腾讯的用户是好事。
接入 DeepSeek 之后,腾讯很多产品的数据增长都很不错,可能是两位数的增长。从 DAU 角度来看,现在很多人点微信搜索,下面就会出现下载「使用了 DeepSeek-R1 的元宝」的提示,导量能力无与伦比。所以元宝现在排 App Store 第二,明天可能就第一了,这都很正常。
晚点:你觉得这是腾讯的选择吗?它在自研大模型上没那么激进,略慢一筹,就是知道会有人做出更好的模型,到时凭微信这个大杀器,再积极接入?这是它设定好的主动战略吗?
戴雨森:我听说这是腾讯主动选择的战略,但我同时也听说混元大模型在大量招人扩充团队。从中国互联网过去的经验看,大厂很少完全依靠第三方来提供关键基础设施。
所以一方面,我觉得腾讯现在这个决定非常厉害,也许会开启一个新时代。在美国,Netflix 一直用亚马逊云服务(AWS),虽然亚马逊有 Prime Video,是 Netflix 的直接竞品,但 Netflix 仍然觉得 AWS 在商业和技术上是最好的选择。但在中国,以前都是有了支付宝,就得有个微信支付,大家都想有自己的东西。不过我觉得选择 DeepSeek 肯定是个很中立的决定,因为 DeepSeek 也没打算做一个超级 App,也没想 to C。
晚点:马化腾知道梁文锋对做一个大 DAU 产品没那么感兴趣。
戴雨森:是的,所以他们至少现在目标很明确,双方合作也有基础。但腾讯会不会一直不想要自己的大模型?这很难说。之前大家说微软就靠 OpenAI,后来微软也自己训练模型,甚至还投资了 Anthropic。
这些情况都可能发生变化。但最核心的是,谁能一直处在前沿。在过去两年多时间里,我们已经看到很多声称要做基础模型、挑战智能的公司逐渐掉队,这也合理,毕竟做这件事需要人才、资金和大量创新。
晚点:除了 DeepSeek,中国创业公司里,谁还有可能保持在前沿?
戴雨森:获得风险投资(VC)的创业公司,原来说的 AI 六小虎,目前看下来,我觉得只有 Kimi 在人才、团队、资金和用户上,具备这样的能力。OpenAI 最新发表的一篇论文,还同时 refer(提及)了 R1 和 K1.5 的研究成果。(真格是月之暗面早期投资方。)
晚点:说到 OpenAI 的论文同时提及 K1.5 和 R1,这两个成果其实是同一天发布的。最初在技术社区的反馈差别没那么大,但最后整个影响力差别却非常大,这是为什么?
戴雨森:我觉得开源是一个关键差异。确实 DeepSeek-R1 的一些工作意义很大,而且它开源后大家都能使用,尤其在西方引起了很大反响。
本来过去几年,硅谷就一直有人质疑预训练花这么多钱到底值不值。很多二级市场投资人开始担心钱花太多了。这时 DeepSeek 突然说 500 万美金就能训练一个 o1 级别的模型——当然这是误读,论文里写得很清楚,那只是最后一次训练的成本。但就有人想搞大新闻,在美国引发了大量担忧,导致 1 月 27 日英伟达股价暴跌 16 个点。当这件事成了全球新闻,它的影响力肯定不是 Kimi 单纯发一篇论文或者一个技术创新能比的。
有个和 DeepSeek 很熟的同学跟我说,他们觉得美国的 OpenAI 或 Anthropic,训练像 V3 这样的模型,甚至都不用花 500 万美金,他们有更大的集群和更多训练经验。但当时很多不太懂行的人看到这个叙事,就开始对比 500 万美金和别人融的 10 亿美金。现在大家也渐渐明白不能这么比。英伟达的股价又快恢复了,对吧?
真的行内人可能更关注像当时 MLA(DeepSeek-V2 模型中的一个创新) 那种降低推理成本的创新。另外,模型智能提升和训练与推理成本的下降,是一直在发生的事儿。比如 GPT-4 的 API 推出以来,成本已下降超 90%,今年还会再降 90%。芯片会更强大,大家也会找到更多降本的优化方法。
所以我觉得现在大家最关注的还是智能能不能提升,只要智能能提升,成本会快速下降,大家相信这个曲线一定会发生。
晚点:DeepSeek-R1 之后,Anthropic 创始人 Dario 写了一篇长文章,文章前半部分就是在分析,DeepSeek 的降本成果其实在行业曲线之上,并没有超出预期。
戴雨森:对,包括智能提升方面也是。当然这篇文章后面有点气急败坏了,但他前面的技术分析挺好的。听说 Anthropic 马上要发 Claude 4 了,这也许也是 DeepSeek 带来的好处,就是作为一个实力强劲又开源的对手,它像鲶鱼一样,让其他人不得不加快步伐。
回头看,DeepSeek 还有个优点,它是一个全新应用,一上来就是 R1 和搜索的结合,是从一张白纸开始做新产品。
R1 还有个特点,我后来才意识到,大家在训推理模型时,都是对标数学和编程能力。 无论 OpenAI、DeepSeek 还是 Kimi 发的论文,都是在对标美国数学邀请赛(AIME)、数学竞赛(MATH)和代码基准测试(Code Bench)。但 DeepSeek 出现后,让它出圈的反而是它的文笔。
R1 的回答有点天马行空,动不动就扯到量子力学。其实 OpenAI、Kimi 和豆包一直要避免这种情况的怕模型胡说八道。但很多人自发传播 DeepSeek,恰恰是因为觉得它的回答和思考过程特别有创意,我不知道这是不是阴差阳错,但事实上也会导致它传播得更广。
晚点:你和其他 AI 从业者交流,大家觉得这是阴差阳错,还是 DeepSeek 有意训练了写作能力?
戴雨森:有不同的说法,一些人认为,可能是有意在文笔上做了加强,甚至还找了北大中文系的人来做标注;但也有人认为,这是对齐不够充分导致的,毕竟它是一个 research lab,所以没太对所谓中立性、真实性进行微调,发布后大家直接就用了,没想到这个特点反而成了好的特性。
单从结果来看,这是 R1 出圈的重要原因。因为真正用它做数学题的人没那么多,大部分人反而拿它算命,分析 MBTI 测试,并不是一般想象中一个 AGI 的前沿模型要做的事。
晚点:R1 带来的另一个影响是,很多之前闭源的公司现在也在像 DeepSee 那样开源。你觉得字节跳动有可能开源豆包大模型吗?
戴雨森:第一,得处于领先地位,开源才有价值。要是开源一个不怎么样的东西,那没什么意义;第二,我觉得开源稍微弱一点的形式就是免费。免费加领先,我觉得这就很厉害了。
是不是一定要开源?我觉得这次 DeepSeek 有个 “甜头”——它开源后引起了西方的高度关注。在美国引发大新闻后,回到国内大家就更觉得它厉害了,让美国人 “破防” 了。当然,开源也带来了和微信的合作,但这不仅仅是开源的问题,而是公司得坚持做这件事。
比如说,假设现在豆包开源,微信会接入吗?我估计不会。这不是开不开源的简单问题。假设豆包现在和 DeepSeek 一样厉害然后开源了,微信也不会接入,阿里千问本身也是开源的,但微信也不会接入。这不是它们能力不行,而和这几家公司的市场位置有关。
所以我觉得梁文锋厉害的地方不只是开源,而是他们坚持开源,而且站在一个不会让大家感到威胁的定位。
晚点:你觉得 DeepSeek 对那些本来就在开源生态里想要主导的公司,比如 Meta 和阿里这样一直都在开源的公司,会有什么影响?
戴雨森:我觉得是一种激励。原来开源社区,开玩笑地说有点像 “赛博佛祖”,有点做慈善的感觉,不管是阿里还是 Meta,都是大公司拿出算力给大家训练模型,带动整个行业发展。但现在来了一个进步更快、更开放的 DeepSeek,这既是压力也是激励。
但确实,我觉得 DeepSeek 的中立性是一个比较独特的优势,腾讯也可以用、百度也可以用,这不仅仅是能力问题,是他屁股坐在哪儿的问题。
晚点:其实这一轮阿里还是比较开放的。
戴雨森:千问和 Llama 挺兼容的,而且它的产品模型不错,更新也很频繁,所以很多开发者都在用千问。说实话,DeepSeek-R1 在使用时存在很多 “幻觉”,所以如果用它来做应用,可能不一定是最好的选择。
晚点:在 DeepSeek 全民爆火之前,在海外技术圈,千问和 DeepSeek 就很受关注,它们俩都是开源系列。
戴雨森:确实,复盘一下就会发现,不管 Kimi 的 benchmark 做得多好,如果对别人不开放,不能开源使用,也不提供海外应用服务,那在海外确实就没有认知度。
晚点:Kimi 为什么不开源?你们之前是怎么讨论的。
戴雨森:我觉得即便到现在,开源也不是一件必须做的事。比如说,在没有保密竞争压力、没有融资压力的情况下才会考虑开源。
而且我们现在看到的是事后的结果,因为开源再加上一些偶然机会才有现在的情况(R1 的爆火)。对于一家商业公司来说,核心还是在于能不能创造用户价值,并最终将用户价值转化为商业价值。所以我觉得开源不是必经之路,只是一条很有意思、很创新的路。
晚点:但今天所有声称探索 AGI 的公司现阶段都不会以用户价值为核心,很多还是以技术价值为主。
戴雨森:只有技术价值提升了才能带来用户价值,所以探索技术前沿非常关键。大模型出现后,可能涌现出了一批所谓比较务实的投资人或创业者,他们想着用现有的技术去赚钱。但我觉得 Kimi 肯定属于另一类,它是要提升技术前沿,这又回到我们一开始说的,打造出令人惊叹、如魔法般的产品体验,最终会获得商业价值。
其实 Kimi 在 2023 年火起来,一个很重要的原因是,它是第一个把 chat、搜索和长文本结合起来的产品。当时 ChatGPT 不能搜索,而且 ChatGPT 对于长文本、多文件的处理也不是很好。所以 Kimi 在前两三年,就是凭借着长文本处理的技术理念,以及将搜索和聊天相结合,带来了不一样的用户体验,从而成功出圈的例子。
尤其在当时,Kimi 刚成立,还没融到那么多钱,也是年轻人、小团队,资源受限,必须专注在一件事情上,选择一个正确的方向。其实 DeepSeek 现在火的很多因素,放到 2023 年的 Kimi 身上也成立。当资源有限的时候,就要在一个关键的点上突破,给用户带来那种非常惊艳的体验,这才能出圈。这不是往自己脸上贴金,我是真觉得它们有一些相似之处。
晚点:Kimi 接下来会更专注吗?会砍掉一些东西吗?
戴雨森:他们已经砍掉了很多东西,比如海外业务,他们现在就是要继续冲 SOTA(模型最佳表现)。
晚点:他们正式决策不做视频生成大模型了吗?
戴雨森:至少从目前看,有所不为很重要。
英伟达的地位是否被撼动,很大程度取决于模型架构会不会固化
晚点:o1 和 R1 对大家都很关注的算力需求也会有持续影响。一种观点觉得,因为训练、推理成本低,所以会减少对算力的需求,更多人的观点是,这会打开更多应用,所以总算力需求会大幅提升。
戴雨森:我觉得算力需求有不同的结构。原来就是训练和推理,在 2023 年到 2024 年的军备竞赛阶段,大家好像觉得只要买足够多的卡,就能得到更好的结果。那时预训练还没撞墙。
但现在我们发现,对预训练的大量投入的边际效益是有限的。比如 Grok 3 用 20 万张卡训,虽然有进展,但提升在递减。
接下来会发生的事情是,由于模型能力已达到了做 Agent 的临界点,并且还在不断变强。所以当 Agent 产品形态落地后,它使用的 inference(推理,即模型使用阶段)算力会大幅增加。相比 chatbot,可能不是提高 10 倍,而是 100 倍、1000 倍。这个技术转折点已经到了。
这就是为什么 Altman 说,ChatGPT Pro 虽然每月收两百美金,但还是在亏钱,因为 inference 需求增加了很多。我觉得这里面有两个情况,一是预训练、后训练和推理的算力占比会变化;二是这确实会对英伟达产生格局上的影响。在 2025 年 2 月,英伟达在推理和训练方面,肯定还是性能最强且效率最高的选择。不过我们也看到,当 R1 火了之后,国产芯片就开始针对 R1 优化了,这种定点优化其实效果更好。
晚点:华为昇腾已经可以支持 R1 了
戴雨森:是的,当技术还没收敛时,GPU 具备很强的通用性。
为什么会有英伟达?最早都是 CPU,它是最通用的。后来大家要玩游戏,游戏有很具体的需求,所以就做了 GPU,专门来加速游戏,当然后来 GPU 可以做 AI。目前,GPU 对 AI 的通用训练和推理来说,还是最好的选择。但要是只服务于某一个具体模型,有两种做法。一种是像昇腾这样,可以专门做优化;另一种做 ASIC(专用集成电路),像博通、Marvell 那样去做。
晚点:比如像 Google 做 TPU 那样,针对自身的需求去优化。
戴雨森:一旦架构稳定下来,在芯片领域通常就能通过专用化来提高效率。这取决于架构到底会不会固化下来,这也是大家激烈讨论的点。
目前看,o 系列这条路还能走很远,那可能 ASIC 就会逐渐 work。但假设明年、后年,架构基础会变化,Transformer 都不 work 了,换成其他架构,那做 ASIC 可能就白做了,还得靠 GPU。这里面有很多不确定因素。
不过英伟达确实存在一个问题,它的市场占有率都 90% 多了,份额太高了,很难再增长。现在一方面大家对未来算力需求的预期比较高,另一方面对英伟达的市场格局以及由此带来的毛利率预期也比较高。一旦市场格局出问题,英伟达的毛利率可能会受影响,这是大家比较担心的。但现在所有 AI 公司,包括 DeepSeek 最想获得什么,肯定还是英伟达的产品,能买多少就买多少,想尽办法买。
晚点:有些预期已经反映在股价上,比如做 ASIC 的博通近期涨得很好。
戴雨森:博通或 Marvell,这两个表现都挺突出的。但要说 ASIC,第一,基本上得到 2027 年才能用得上;第二,这里面还存在一些情况,比如价格变化可能会导致 ASIC 这条路不 work。并且要做出 ASIC 并投入使用,在产能、良品率、效率等方面也有很多问题,不是说想设计就能做出来的,这里有很多不确定因素。当然,英伟达也遇到了一些问题,比如液冷问题、整体良品率问题等。
总之我认为 Agent 产品落地,对算力需求整体是利好,大家现在也都知道了杰文斯悖论(指工业革命时蒸汽机变便宜后,蒸汽机市场规模并没有缩小,而是因更多工厂开始使用蒸汽机,其市场规模大增)。但英伟达市场格局是否会变化,只能说出现了一些新的可能性。所以部分炒股的人,Deepseek 出来后的第一反应是看到相关新闻先抛再说,现在看好像问题不大,再加回来。
AI 现在还处于精英给精英打造超级工具的阶段,它未来的价值是普惠
晚点:我们刚才聊了很多对未来的展望,有些可能今年就会出现,有些可能要等很久之后。你觉得 2025 年我们大概率会看到些什么呢?
戴雨森:我觉得我们会看到更多的 “李世石时刻”,就是在一些任务上,AI 超过 99% 的人类,其实这种情况已经在陆续发生了。比如说写代码,现在 AI 写代码的能力应该比 99% 的人类都要强。
晚点:当越来越多 “李世石时刻” 出现,然后呢?我现在都有点想象不出会发生什么变化,比如人要去做什么,社会结构会怎么改变。
戴雨森:我觉得我们正处在人类历史上一个非常有意思的时期。其实指数增长是世界发展的常态,因为我们每年都是在前一年的基础上增长。但能亲眼见证并亲身感受指数增长,是很罕见的事情。
一般来说,这种指数增长得用一生去体会。但在 AI 上,具体讲,从 o1、o1 Pro 再到 Deep Research,我在短短几个月内就明显感觉到了它的指数级增长,这种体验很特别。而且我觉得这会让我们对未来的预期发生很大改变。
我觉得我们得做好应对冲击的准备。像安全问题,以及新技术出现后如何解决社会福利问题,也许只有当这些情况真正发生时,大家才会真正重视起来。
晚点:而且这个能力掌握在谁手里,其实是影响世界格局的。
戴雨森:所以加速主义就认为 AI 肯定会发展,坏人会用 AI 去做坏事儿,所以好人应该更快发展 AI。
我在想,一方面很多人可能会失业,现在大家对 AGI 的定义是它能替代多少人的工作,那如果实现了 AGI,不就等价于很多人会失业吗?也有人说那时候物质会极大丰富,每个人都发钱,我也不知道到底会怎样,我觉得肯定会有很多冲击。
我们人眼中的真实也会发生巨大变化。我是 1986 年的,我成长阶段,一个人能接触到的多数信息是经过权威认证的,要么是书、要么是报纸,不然根本没办法出版。后来互联网的巨大意义在于,能让普通人写的东西被看到,现在 AI 变成了你想要什么就能生成什么。我发现,包括我自己在内,很多时候都没有判断力了,没法甄别信息的真假。所以在这样的环境里,如何进一步适应,建立起自己的认知体系,我觉得是非常重要的问题。
这对我们的社交以及认知世界的方式都会产生很大影响。我发现科技发展有个规律,第一波往往是最厉害的人创造出最强大的技术,第二波就是用强大技术为最厉害的人打造最强的工具,最后这些技术会走向大众。以计算机为例,开始是为了研究核弹或破译密码而出现的,这种为 “超人” 设计的超级工具会逐渐走向大众化,普及到普通人,然后小型化进入家庭,再发展到移动化,无处不在。
AI 现在还处于最厉害的一群人给精英人群打造超级工具的阶段。但我觉得这个东西最终肯定会惠及大众。当初我们投资王慧文的光年之外,口号就是 “加速 AGI 普惠人类”。不过中间肯定会像威廉・吉布森说的 “未来已来,但分布不均”。所以我觉得不管是 DeepSeek 这种开源也好,还是 Kimi、豆包这种大用户产品也好,其实都是在加速未来更加均衡地分布,都有重要意义。我觉得新技术最终是要惠及大众、全人类的,这样才有真正的价值,而不是只掌握在少数有钱人或少数公司手里。这是我希望看到的结果。
晚点:你个人在为可能更快到来的 AGI 做一些什么准备?
戴雨森:锻炼身体。我觉得投资优秀创业团队其实很重要。当然,梁文锋一开始也是创业者,只不过他太厉害了,自己炒股、自己做量化就能赚到钱。还有很多可能成为梁文锋那样的人,他们或许缺少启动资金。所以我觉得 VC 在这个时候很重要,尤其是早期投资。因为早期投资承担的风险最大,要是很多事情都已经确定了,那也就不需要我们了。
晚点:你有什么最近觉得有意思的、想给人推荐的书吗?
戴雨森:我给人工智能从业者或比较愿意深入思考的读者推荐 A Brief History of Intelligence,还没有中文版,可能翻译成《智能简史》。这是我 2024 年的年度推荐书,作者是一位科技创业者 Max Bennet。他从生命诞生讲到 GPT-4,把智能在地球上几十亿年的演进总结成五次大突破,并把每次突破的驱动原因、发生的变化以及变化带来的结果都解释得很好。我把这本书推荐给 OpenAI 的研究员,他们也觉得很好,这本书能让我们对智能是怎么来的有很多启发,适合比较专业的读者的书。
另一本,我最近读了觉得很有意思,也有点专业的书,是《第一只眼》,作者是 Andrew Parker。这本书讲的是寒武纪生物大爆炸。在寒武纪之前,地球上的生命已经出现了 30 亿年,但一直是很初级的形态。然而在寒武纪短短几百万年里,生命突然爆炸成十几种不同门类,产生了很多进化。有人说是因为地球大气成分变了,有人说是海水成分变了。而这本书的作者提出了 “光变假说”,后来李飞飞新书里也引用了这个假说。
就是在某个时候,一只原始三叶虫身上出现了一个感光斑点,它有了对光线的感受能力,这只三叶虫由此获得了很多优势,它能去亮的地方,回避暗的地方。直到有一天,其实这一天用了 100 万年,在进化史上这是非常快的时间,第一只 “眼睛” 出现了,原本都是 “瞎子” 的世界里出现了一个有眼睛的生物,它立刻获得了巨大的生存优势,而被它捕食的生物开始进化出甲壳,也进化出眼睛,地球开始了生命进化的竞赛。
这让我想到现在的 AI。就像《爱丽丝漫游仙境》里的红皇后假说——你必须全力奔跑才能留在原地或不被消灭。不管是模型还是公司,它们的不断奔跑,让我们获得了更好的技术,让世界发展。生存竞争是生命的特点、智能的特点,也是进步的原因。这本书也给了我很多启发。
晚点:你刚说的《第一只眼》挺有意思。其实如果去想智能这件事,会发现语言是比较晚才出现的,它是一种比较高级的智能形态。
戴雨森:所以语言模型一开始用语言去压缩信息,肯定是对的,因为这是智能含量最高的东西。当然再往下想,还有很多智能没有用语言表达,那么用语言去训练智能,是否会受到语言本身的限制?而且如果 AI 非常聪明,它要重新发明一种语言,可能就不会是我们现在这样的。
晚点:刘慈欣有一本科幻小说《乡村教师》,里面的外星人就认为人类靠语言交流是一种非常低效率的方式。
戴雨森:对啊,所以我觉得我们从语言模型开始,但最后也许会超越语言模型。如果 AI 的思维速度比我们快 1 万倍,智能也比我们高很多,它的语言就不会和我们一样。所以我觉得现在回过头去看智能是怎么产生的很重要,我们现在看到的是智能经过几十亿年发展后的结果叫 “语言”,但如果再走一遍,未必是这样,所以要回到源头去探索它的原动力和每次变化的原因。
题图来源:由 GPT-4o 生成。Prompt 是:请把西斯廷教堂由米开朗基罗创作的《创造亚当》这幅画里,上帝和亚当的手将要牵在一起的经典画面里亚当的手换成机器人的手。依然保持原作的画风。
来源:晚点LatePost