深聊GPT-5发布：过度营销的反噬与AI技术困局

摘要：与GPT-3到GPT-4的惊艳跨越相比，GPT-5的发布略显匆忙：翻车的数据图表、带bug的代码演示、误导的“博士级”科学原理解释，以及作为核心技术更新的“Router”（路由器）也被硅谷AI从业者指出是已经存在好几年的技术。

文 | 硅谷101

GPT-5上线次日，OpenAl在一片用户的批评声中宣布向付费用户恢复 GPT-4o。

与GPT-3到GPT-4的惊艳跨越相比，GPT-5的发布略显匆忙：翻车的数据图表、带bug的代码演示、误导的“博士级”科学原理解释，以及作为核心技术更新的“Router”（路由器）也被硅谷AI从业者指出是已经存在好几年的技术。

从内部代号Q-Star到Orion项目的接连受挫，从数据匮乏到模型崩溃的技术困境，OpenAI正面临前所未有的挑战。

但不可否认的是，作为一款产品，GPT-5有着明显进步以及对用户交互的进一步优化。ChatGPT正打入更多垂类领域，朝着“AI超级应用”产品进发。而一场抢占市场份额、争夺企业订单的价格战，也在头部大模型公司之间正式开打。

本期文章，我们将深入聊聊GPT-5发布背后的技术困境、商业焦虑与未来趋势。

OpenAI为什么引发外界这么多的吐槽？GPT-5的开发过程遇到了哪些技术瓶颈，最终选择了什么架构来攻克？作为产品的ChatGPT，为什么选择进军教育、健康医疗和编程市场？

而更令人担忧的是，AI scaling law已经碰壁，强化学习、多模态能力和新架构范式能否为AI发展指明新的方向？

01 GPT-5发布会：漏洞百出，突破放缓

说实话，外界对GPT-5的发布非常期待。原因很简单：GPT-4发布已经是两年半之前的事情了，而外界已经等新一代模型很久了。

但总结来说，GPT-3到GPT-4的能力跨越太过惊艳——所谓的“ChatGPT Moment”。

这样的“Wow moment”（惊艳时刻）是这一轮生成式AI技术革命的基础，但GPT-4到GPT-5的能力跨越，却远没有达到外界的期待。

朱哲清

前Meta AI应用强化学习负责人

Pokee AI创始人兼CEO：

你要横向对比，就是GPT4和当年GPT3的对比，这个的是天和地的区别，对吧？GPT4跟GP5如果你是以同样的标准来做对比的话，其实差距是没有那么大的。就是它可能是一个在我看来是个改进，而不是一个阶段性变化。

GPT-5发布了什么呢？

Chapter 1.1 业内推测GPT-5技术路线

首先，此前新闻爆料，GPT-5会成为一个“统一大模型”（unifying system），能强大地将推理、编码、语音、研究等能力整合进单一模型，实现“既要”和“又要”的用户需求，将GPT系列和o系列的模型融合，这个单一模态架构能自动调取相应的模型和能力，而不需要用户之后自己选择模型了。

虽然OpenAI目前还没有正式发布详细的GPT-5技术报告，但业内的技术专家们猜测，这其实不是一个端到端的超级大模型，而是由一个实时的“路由器”（Real-time Model Router）来“拼接”下面的不同子模型。

其实这个技术路线，不是创新也不是突破，早在硅谷初创技术圈里就存在很久了。

Aiden He

TensorOpera AI联合创始人：

GPT-5就是一个典型的联合的系统，它是把已有的GPT-4，o3等推理和非推理的模型串联到一起。

它可能是因为商业化比较着急吧，我觉得更应该把它叫做GPT 4.99，因为它是在所有的历史上的一个聚合方案。这个路由器，其实并不是一个很新的东西。

这种路由器的方案主要是一些初创公司在使用，大概有三个使用场景和原因：

第一，是在手机这样的设备端上，有端上的小模型，也有云端的大模型，简单的问题用本地模型，复杂的问题用云端模型，就需要有个路由器去帮你做选择。

第二，是初创公司们做模型层之上的开发和应用的时候，把所有开源和闭源模型聚合起来，把不同的任务给不同的模型来调用。

第三，是要去平衡系统的成本，比如说用户的一些高频又简单的提问，像“hello”和“thank you”这种query（查询）量非常大，光是这种简单的问题每天都在消耗OpenAI上百万美元的费用，所以这些典型问题都可以直接分发给非常小的模型去解决。

所以，这些是之前初创企业们因为要平衡系统成本，开发和应用时的主要三大使用场景，但如今被GPT-5作为主打技术突破，让外界不少人怀疑，一个端到端训练的超级大模型路线已经触顶。

而OpenAI不得不开始用这些“取巧”的技术来解决“产品层面”的问题，而不是AI大模型“智能飞跃”的问题，这是和外界的期待非常相悖的。

当然，实时路由器也没有那么好做，整合各种多模态也有很多技术上的挑战，这也可能是发布推迟的原因之一。

Aiden He

有的模型擅长于数学，有的模型擅长于写作，有的模型擅长于编码，所以你要根据用户的意图、语言类型、各种各样的地域位置，包括它的语言偏好去分发模型，这是一个非常复杂的问题。

Jenny Xiao

前OpenAI研究员

Leonis Capital合伙人：

不同的模态会有非常不同的计算需求，以及许多不同的推理需求。例如，如果是语音模块，它就会需要非常低的延时。因为如果延迟太大，你和AI进行对话时就会变得很尴尬。而其他模块，比如深度推理或研究，可能会有两三分钟的延时，甚至更长，有时候我觉得都有30分钟。所以把所有这些模态整合在一起，还要确保产品不卡顿，这是一个相当大的技术挑战。

抛开这不是一个多么酷炫的技术不谈，说实话，单从用户角度来看，我本来觉得这点改进还挺好的。

因为之前的ChatGPT确实像个大杂烩：4o，o3，o4-mini，o4-mini-high，GPT-4.5，GPT-4.1，GPT-4.1-mini，旁边还有Codex，视频模型Sora，已经agent生态的GPTs……简直太乱了。

所以，如果GPT-5能自动为我挑选最适合的模型，其实在用户交互上是挺重要的。

但这里的关键词是：你得能选对，且效果得比之前好。

然而，当OpenAI取消此前自选模式，在社交媒体上用户们却开始集体抗议，很多人认为GPT-5没有4o的亲切感，效果甚至不如4o，并且用户有种被剥夺了选择权的感受，所以在X上，非常多用户集体呼吁“让4o回来，不然就注销ChatGPT账号。”

这也让OpenAI CEO Sam Altman不得不在周末之前回应，保证将上线更多定制化的功能和内容，并持续对GPT-5进行改进。

OpenAI在这次发布会中，一直在强调要给用户的不是“more information”“越多的信息不一定是越好的”，而是要给“just right”的信息，“刚刚好的、适合”的信息。

这个出发点看起来没有什么问题，但在技术上，怎么去定义“just right”，什么是“刚刚好”，还蛮有争议的。关于GPT-5的优化，我们也会继续关注。

接下来，我们再聊聊这次发布会上，OpenAI展示的三个应用场景：教育，健康医疗以及编程。

毫无疑问，这将是OpenAI进军商业化的主要三个战场。

Chapter 1.2 三大垂直应用场景

在发布会上，OpenAI展示了用多模态学习韩语的场景，效果确实看上去挺丝滑的：语音模型进一步升级，可以实时加快放慢，感觉会是非常好的教育交互场景。

GPT-5的玩法更加升级。你还可以让ChatGPT直接给你做个学法语的网页，或者小游戏应用，几分钟时间，记忆闪卡、单词测验、进度追踪等等功能应有尽有。

所以我们看到语言学习公司多邻国股价在GPT-5发布会期间就开始大幅度震荡，本来因为财报非常好出现盘中大涨，但OpenAI发布会之后开始一路狂跌，也是市场在质疑，ChatGPT在之后会抢夺多少教育市场的份额。

我认为教育是OpenAI非常明确的一个垂直领域。ChatGPT刚推出时，基本上把Chegg给“干掉”了。Chegg是一家教育公司，学生主要用它从同伴那里抄作业。ChatGPT推出后，学生们就觉得，我们好像不再需要Chegg了。如果你看OpenAI模型在2023年初的早期用户，你会发现很多都是学生，而且在暑假期间，OpenAI的使用量会大幅下降。接着，OpenAI最近推出了“学习”功能，我觉得这个功能更多是针对那些想随便学学或者是探索某个主题的人。

就语言学习而言，我一直在用ChatGPT练习粤语，我感觉它效果非常好。我以前是用多邻国，但我觉得OpenAI比多邻国自由度高得多，因为你可以用OpenAI探索任何话题。我认为OpenAI肯定会去切入这些（语言学习）公司的营收领域，因为在ChatGPT的原生环境下，复刻它们的模式实在太容易了。

另外，OpenAI强调的市场蛋糕还有健康医疗领域。因为GPT-5号称有着博士级别的能力，所以在医疗健康领域，也能够对专业的癌症诊断报告做通俗易懂的解读。

在发布会中，OpenAI请到一名女性癌症患者，她说，去年被诊断出癌症病情，收到的报告有许多医学术语，她让ChatGPT先帮助她厘清资讯，并与医生的评估进行比对，再做出关键决策。

而她也形容说，GPT-5更快速、更完整，在整个治疗过程中，让她觉得有了一个“伙伴”。

这一点我也感触蛮深的。医疗领域是一个医生和患者知识差距巨大的行业，因为这样的知识差距，导致了两者关系的不平衡，患者通常没有选择。

我最近身边有个好朋友进了重症监护室，陷入昏迷整整五天，她家人刚开始除了每天去医院求医生，感觉什么都做不了，但很快用上了AI，开始对病情和治疗方案各种学习和讨论，之后感觉和医生交流的时候障碍变小了很多，在做出一些关键决策的时候也心里更有底了。

我觉得这就是技术的光明面：赋予人们自主权。

而健康医疗行业占据美国GDP的18%左右，是巨大的市场，OpenAI不会放过这个市场。

同时，我们看到全球AI医疗市场也在井喷式发展。市场预测，全球AI医疗领域规模会从2024年的26.69亿美元飙升至2030年的188.38亿美元，年复合增长率高达38.62%。

包括OpenAI参与投资的、专注于利用AI减轻医疗专业人员行政负担的初创公司Ambience Healthcare最近C轮融资2.43亿美元，迈进独角兽行列。所以我们接下来会看到OpenAI在医疗健康领域的进一步动作。

另外一个GPT-5要打的核心商业战争，就是编程市场了。

无论是低提示词的非专业用户场景，还是专业编程场景，都展现出代码能力的强势升级。

同时，OpenAI来请到了最炙手可热的AI编程初创公司Cursor CEO到现场分享如何用GPT-5打造出最高效的编程体验。

这里能看出，自从Anthropic开启了Claude Code产品之后，AI coding初创公司就开始纷纷站队了。

之前OpenAI本来想买Windsurf没买成，我们之前也出了视频跟大家讲了这个狗血的收购大瓜，现在Cursor明显站队OpenAI一起来打Claude，这是一轮新的编程市场争夺战。

Aiden He

Anthropic其实做了很多很多事情，它在开发者社区的影响力，我觉得会大于GPT-5；GPT-5可能大家会做应用，各种东西PoC（Proof of Concept,概念验证）快速起步，但是一些专业的开发者可能还是比较喜欢Anthropic，所以它一定是各有所长。但就算是OpenAI主打及自夸“世界最强”的编程场景，其实也让很多人失望。

我可能本来的预期可能在于，比如说在代码领域，它单一模型可以直接端到端，从架构到写每一个前端、后端代码，到它知道选择什么工具，到我怎么把这些东西都串联起来，然后自行测试。完成测试以后，可能回过头来再去改自己的代码，类似于有这样的一个端到端的能力。从OpenAI的定义上面，能超越它第三阶段agentic experience（智能体体验，模型以智能体身份主动行动）定义，再往上走一点那种感觉。但目前看起来完全没有。总体在我看来，是跟Anthropic的Claude Opus差不多的能力范围。

Chapter 1.3 错误百出的发布会

同时，这场发布会不得不吐槽的，就是现场出的各种bug了，让这场万众期待的发布会显得特别“草台班子”。

这个时候，OpenAI得感谢自己还没有上市，如果是谷歌的发布会出现这么多错误，可能股价早就蒸发上千亿美元了。

首先在发布会直播中，一张展示GPT-5在编程基准测试（SWE-bench）上性能的图表出现了严重错误，图上，代表GPT-5（52.8%准确率）的柱状图，其高度竟明显超过了代表旧模型o3（69.1%准确率）的柱状图。

另一款模型4o的柱状图与o3的水平位置一模一样，标注的数字却是30.8%。这个错误低级到不敢让人相信是OpenAI的发布会。

尽管OpenAI事后在官网上修正了图，Sam Altman也发文自嘲了，但这个图的火爆和出圈程度直接秒杀Sam Altman之前铺垫的任何营销努力。

而更严重的是，这显示出的不仅仅是匆忙和粗心，更是OpenAI团队试图在数据呈现上营造出的“巨大进步”的假象。

同时，Benchmark“分数打榜”这件事，也正变得更越来越不重要。

朱哲清

前Meta AI应用强化学习负责人

Pokee AI创始人兼CEO：

前两天（OpenAI）刚release（发布）的open-source model（开源模型），它在Benchmark（基准测试）上面的performance（表现）也还可以，但是它真正使用起来，它的代码能力其实挺拉胯的，它出现了很多的bug，很多代码都跑不通。

Jenny Xiao

前OpenAI研究员

Leonis Capital合伙人：

基准测试“已死”，但新形态的“基准测试”又会死灰复燃，对吧？所有这些实验室都非常注重在基准测试表现上的提升。他们会为了在某个特定基准上提升3%或5%而相互竞争，而且很多研究人员也以模型在这些基准上的表现为傲。但作为用户，我的感受是，基准测试对用户来说毫无意义。所以我认为，下一个竞争前沿会主要转向用户体验。我觉得现在，很难靠原始性能来区分模型的优劣。

另外还有一个尴尬的细节：在演示过程中，GPT-5在解释“伯努利效应”时，错误地采用被主流物理学教材已经证伪的“等时通过理论”。

前一秒Sam Altman还在说，GPT-5是属于“博士级别”的AI，后一秒就直接自己打脸，还挺尴尬的。

这显示出，GPT-5完全没能识别过时的错误解释理论，让外界对这个新模型的理解和推理能力有了更多的质疑。

不过有一说一，在解释这个理论时自动产出高质量SVG动画与可交互代码还真的挺酷炫的（感觉对我们的视频后期之后会非常有用），也说明OpenAI的多模态生成能力确实还是很强的。

我的总体感觉是，OpenAI在尝试在那么多个模型发布之后，想要在这个阶段上站住脚跟，把自己这个领先地位占住，所以它必须要去做这么一个发布。

大概总结一下GPT-5发布的重点：GPT-5解决的都是产品层面的问题，并没有技术颠覆性的创新，这说明接下来一线大模型的技术差距也会进一步缩小，大家都用着差不多的方式在把模型能力艰难地往前推，不过就是：堆算力+堆数据+高质量数据筛选+后训练+推理时长+工具使用。

因此，我也看到一句话说OpenAI从“The One”变成了“One”，从“引领者”变成了前沿模型“之一”。

为什么GPT-5会这么拉胯？是不是LLM的发展路径真的已经碰壁了？

02 失败的“GPT-5们”，Transformer架构的发展瓶颈

GPT-5的训练从很早就开始了，但非常有意思的是，没有一个模型在OpenAI从第一天就被命名为GPT-5的。

我们都清楚，OpenAI一直在训练下一代模型，但肯定只有在达到一个重要的里程碑后，他们才会给模型正式命名。GPT-5自2024年以来一直在训练，但只有到达一个重大节点之后，OpenAI才会将这个模型命名为GPT-5。

OpenAI在推出GPT-4的时候，所谓的“下一代大模型”就已经在训练当中了，但如果这个模型不够好，不够“wow”到大家，那它就注定不能被叫做“GPT-5”。

比如说，在2023年年底就被曝出OpenAI内部代号为“Q Star”或者“Project Q”的项目，但这个模型后来被称为“o1”。

OpenAI在另外一个叫Project Q的项目上投入了很多精力，很多人也叫它Q star。这个项目在2023年11月左右，也就是Sam Altman那场风波期间被泄露了出来，最终成为了o1系列，也就是o系列。这个项目非常重视思维链推理，想要打造推理模型。这个就是所谓的Q项目。

其实“O”系列模型还算成功，后来又更新了o3和o4-mini，但依然不能被称为GPT-5。为什么呢？

The Information在GPT-5发布之前出了一篇非常重磅的文章，爆料了OpenAI内部的这几次关键的GPT-5研发挫败。

其中在谈到o系列的时候说，这样的推理模型似乎帮助OpenAI克服了预训练阶段性能增长放缓的问题，而且2024年年底的o3母模型（也称为教师模型）在理解各种科学领域及其他领域方面，相比o1的母模型取得了显著的进步，当然这个进步也是因为OpenAI用上了更强的英伟达芯片服务器。

但奇怪的事情发生了，当OpenAI将o3母模型转换为能让人们提问的ChatGPT版本（也称为学生模型）时，效果出现了显著下降，甚至比o1表现好不了多少，同样的效果下降也出现在了API的模型版本中。

业界有猜测是因为基于人类自然语言的聊天产品形态拉低了模型的能力水平，限制了AI的发挥。

Nathan Wang

硅谷101特约研究员

资深AI Agent开发者：

可以理解说大模型是理解高维度复杂内容的，但是最终它要跟我们人类交流，或者是要把它转换成人类理解的文字的时候，它需要通过这样降维的方式。就相当于一个高等的生物需要降维，才能跟我们人类进行交流。在这个降维这个过程中，其实它会损失很多高维度的信息。

包括我们自己其实也有一些各式各样的潜意识层面或者高维度的思考。最终我们要个人表达的时候，是要通过语言，但是语言其实并不一定真正能够把我们大脑中的所思所想，全部都很清晰地表达出来，或者甚至说，有些东西是没有办法去表达的。所以从这一点上来看，当你去需要这个模型通过语言来跟人交流的时候，在一定程度上拉低了模型自身智能的表现。

除此之外，在o3之后，OpenAI内部有一个代号为“Orion”的项目，在今年2月份推出，但也没有掀起什么水花，估计OpenAI对它的信心也不大，所以也没有把GPT-5的名字给它，而是叫了“GPT-4.5”。

我个人认为最大的挑战仍然在于预训练，因为早在去年年底，甚至更早的时候，scaling law就已经碰壁，因为我们正在耗尽高质量且多样化的人类生成的数据。缺乏数据是OpenAI的Orion项目延期的最大因素。有些人会称这个项目失败了，有些人则会说是延期。但本质上，在OpenAI训练Orion系列模型时，他们就已经遇到了缺乏高质量、多样化数据的问题。他们最终是用由OpenAI的o1模型生成的合成数据来训练Orion系列，但结果仍然没有达到人们的预期。

我觉得OpenAI 4.5（也就是Orion模型）会没那么成功，是因为它真的没有带来让人眼前一亮的突破。就好比几乎没有人特别关注4.5版本。

同时，The Information的报道中说，2024年下半年，Orion没能成功的部分原因在于其预训练阶段的局限性。

同时，OpenAI还发现对Orion模型做的优化在模型较小的时候有效，但当模型规模增大时，这些优化就不再有效了——模型训练的不确定性仍然非常大，有很多的因素会导致模型训练的失败。

之前在硅谷101的播客录制中，我们的嘉宾Bill Zhu也跟我们分享了训练模型中会出现很多模型崩溃的情况，甚至可能会在强化学习过程中出现所谓的“灾难性遗忘”。

你是不可以无限制训练模型本身的，就是你训练到某一个程度它就会fall apart（崩溃）。其实在RL领域之前很经常看到叫catastrophic forgetting（灾难性遗忘）——在你训练很久很久以后，它开始忘记所有过往学到的知识，然后整个模型像疯了一样，所有原来的policy（决策策略）都消失。

这是为什么你一开始模型要变得足够大，其实就像海绵一样，然后你往里面不停地注水，然后你注水注到一定程度它满了，那你再往里面注水，就会流出来一些，但流出来的不一定是注入的水，很有可能是原来已经有的一部分水，甚至是很重要的水。

就像你大脑里面不停地灌输知识，然后最后过载了，把加减乘除忘了，那剩下的所有知识体系就直接fall apart（崩溃）。这个问题本身叫model plasticity（模型可塑性），就是说它的可塑性到了某种程度就直接崩溃了，然后你要怎么去解决这个问题？叫Continual Learning（持续学习），现在可能你有一天会人类生成一个terabyte of data（1TB的数据），那10天是10 个terabyte（TB），那未来可能生成数据还会越来越多，那你怎么能够用一个模型无限地去训练它，让它仍然能够对未来的知识进行获取？这是不可能的。

这样看来，以Transformer架构为基础的LLM模型发展，如今确实可能到了一个关键的时刻，或者需要一个完全不同的新架构来突破技术壁垒。

03 未来AI进化路径，强化学习、多模态、JEPA

接下来前沿的大模型该如何继续优化呢？我们跟身边的技术大牛聊了一圈，总结了三种方式：第一是强化学习，第二押注多模态能力提升带来的突破，而第三，是寻找其它的框架范式。

首先是强化学习路线（Reinforcement learning），简称RL，包括RL在预训练阶段的尝试。

我先讲讲以RL为核心的训练机制为了解决什么问题。很多的任务是以目标驱动的，比如说写代码，比如说数学、物理、金融机构的一些东西，再比如城市规划，你做Operations research（运筹学）、供应链这些东西它都是有明确目标的，世界机制也很完整。如果A发生了会出现B。在这种情况下，Pre-training（预训练）就变得不是很有必要。

这种专业型的目标为驱动的场景，大多数都是没有任何的数据的。数学跟代码是仅有的两个可能数据点相对多的场景。除此以外，我刚刚说的剩下的那些点基本上都没什么数据，你很难在互联网上得到大量的数据去完成训练。

本质上它要解决的问题是非常泛化的，而市面上已经出现的数据，大多数都聚焦在一些经常会发生的代码问题和数学问题。而那些非常高深难测的数学问题，它是从来没有出现过的，它必须要通过一个反事实的形式，就是我要生成一些市面上从来没有出现过的代码、数学、物理规划等等的输出。然后靠一个ground truth（真实标签）的validator（验证器）来告诉我做得对不对，然后去self-train（自我训练）。这种训练方式是非常适合于这种有真实标签、能够做出精确判断的这种用例，然后去进行优化。

这是RL最闪光的时候了，其实有很多研究在网上都说过，其实现在最大的问题是验证，我如果能够找到一个好的verifier（验证器），我可以认为问题解决了。因为可以通过RL去完成对于这个验证器的优化就可以了。

Bill说的“验证”是RL中非常重要的关键，也是The Information爆料中，GPT-5在RL上的杀手锏。

报道说，OpenAI一直在开发一个被称为“universal verifier”（通用验证器）的技术：让一个大语言模型使用各种来源的研究，来检查和评估另一个模型的答案。它可以自动执行，确保模型在强化学习过程中生成高质量答案。

这个方向就像我们当年看到Alpha Zero打败人类一样，它所能够走出的一些路子是人类正常想象不到的。通过这个机制，甚至可以发现新的物理定理，它可能可以真正去发现人类所不拥有的知识，这可能是下一步我觉得真正迈向super intelligence（超级智能）的一个关键点，但目前还没有很好的一个突破。

而接下来，需要各大模型公司去探索的第二条路，就是多模态。

就像前面我们说到的，大语言模型的维度是非常有限的，而多模态，以及世界模型将对接下来AI的发展至关重要。

Aiden He

我们要注意多模态，因为多模态一旦引入，它就有非常复杂的工作流，比如说你要用浏览器，你要用数学，你要用代码，你要使用各种复杂的工具。然后包括多模态的使用，比如说，你看GAIA（Generalized AI Agent benchmark，一种面向生成式AI的基准测试）提出来的框架，它其实是非常复杂的任务，人类去完成都可能要6-15分钟，如果AI不断地把时间降到6分钟以下，我觉得这也是学术界、创业公司一直在追求的。比如说我们在金融领域去做很复杂的自动交易策略，包括给网红们去做发帖，其实这里面有非常复杂的步骤。

你怎么把它的boundary（能力上限）提高。我觉得两个层面，一个是在应用这样的multi-agent（多智能体）系统，不断去推高需求；另外一个是在某些能力层面，大家不断地去螺旋式上升，自己训更大的model（模型），当模型因为算力和能源限制的时候，它就会去做multi-model（多模型）的组合。

所以上面是多智能体，下面是多模型，我觉得这个是接下来我比较看好的两到三年的一个发展路线图。

对于大方向的突破，我感觉应该肯定会发力在多模态上面，特别是在视频跟world model（世界模型）上面。因为人类的语言本身是一个非常大的compression（压缩包），它的信息搭载量和视频的信息是一个数量级的差异，这件事情我同意Yann LeCun的说法，人类从视觉、听觉、触觉各方面的多维度信息采取、吸收量，是要比纯文字要高出大几个数量级的。

文字训练的一个假设是：我如果能够通过一些简单规则，比如reinforcement（强化学习），fine tuning（微调）或者reward model（奖励模型），通过一个简单规则或者简单的判断方式，或者训练出来、或者写出来的判断方式，能够去判断一个模型的好坏、告诉你怎么去提升这个模型。它就相当于一个文字领域的world model（世界模型）。比较复杂的点是，当出现了多模态视频，可以navigate environment（导航环境）之后，它的评估难度就会高很多。从纯pixel（像素）的方式去做评估，这个是目前机器人技术领域肯定没有解决的问题。

如果world model（世界模型）能有大幅度提升的话，我们有一个很大的机会能够去训练，比如说视频理解的模型、机器人技术的基础模型、游戏的基础模型，这些基础模型的诞生再给到一个机会，让我们去后面再去做post-training（后训练），它可以在整个多模态的世界里面创造text-based model（基于文字的模型）的一个同样的可以复制的成就。

然而在那些领域当中，它所代表的市场份额，或者整个市场的空间，其实比纯文字的市场空间要更大。它可以把一个纯文字交流式的非常压缩信息的系统拓展成一个，或者是线上的非常丰富的信息，或者说视觉、听觉、触觉的一部分，或者直接线下的机器人技术的东西，它们的能够部署的这个领域有一个非常大的延展，所以我觉得我刚刚说的像世界模型这个方向，视觉的方向，一定是下一步最重要发力的方向。

而多模态之战确实在最近变得非常激烈，谷歌最近发布世界模型Genie 3，这在一些业内人士看来，重要性是要超过GPT-5的，我们《硅谷101》也在操作这个选题了，很快会放出来，所以大家记得关注我们的账号，不要错过更新哦。

此外，Bill提到的图灵奖得主Yann LeCun近年来提出的核心研究方向叫做Joint Embedding Predictive Architecture，简称JEPA，翻译过来是“联合嵌入预测架构”，旨在克服大语言模型的局限，推动AI理解物理世界。

资深AI Agent开发者：

JEPA本身它是把所有模型的训练放到Latent（潜层）空间中去完成。它在潜层空间的话，对于你的输入是有一个抽象的表达，对于你的输出也是一个抽象表达，这样你就可以再把输入、输出都同时放到这样的一个维度空间中训练。然后再给到它不同状态的量，让它可以在潜层空间中去预测“我下一个动作应该是怎么样的”或者“我下一个应该预测的，是怎样的一个状态？”它在这个过程中就不是一帧或一个一个像素去预测的，而是把你遮挡了的某一块可以整体地给预测出来。

JEPA本身其实也分I-JEPA（image图像JEPA）和V-JEPA（video视频JEPA）。最新发表这个文章其实也表现出，在预测整个视频中的事物变化时，也取得了非常好的表现。所以，我个人比较看好一些非transformer的架构，是否在未来可以给我们一个真正的智能，更加接近或模拟我们人脑思考的一个方式。

我觉得transformer的局限性是存在的，但我们也有其他架构作为替代方案，也有不同的团队在进行探索。所以大家可能也需要去关注一些非transformer方面的模型究竟是怎么样去模拟人类的智能。