摘要:在2022年前后,张翔宇对当时计算机视觉(CV)领域的自监督学习范式产生了深刻的怀疑。他观察到,无论是contrastive learning还是MIM(Masked Image Modeling),虽然在小规模实验中表现优异,却普遍缺乏可扩展的scaling
本次继续推荐一个播客的内容。
《张小珺Jùn|商业访谈录》的《102. 和张祥雨聊,多模态研究的挣扎史和未来两年的2个“GPT-4时刻”》
时间:20250602虽然这次播客主题是多模态,但我买椟还珠, 本篇摘要排除了关于多模态模型的相关讨论 。对此方面有兴趣的读者请去看原播客。
虽然本次播客对于(文本)推理模型的讨论只是顺带提到,但我觉得这值得我为此做一篇推荐。
(此概括根据我个人的偏好而有所侧重。)
在2022年前后,张翔宇对当时计算机视觉(CV)领域的自监督学习范式产生了深刻的怀疑。他观察到, 无论是contrastive learning还是MIM(Masked Image Modeling),虽然在小规模实验中表现优异,却普遍缺乏可扩展的scaling law 。他认为, 其根本缺陷在于,这些方法所学习的并非数据中内生的知识,而是由研究者人工设计的“不变性” ,如对物体遮挡的适应。 一旦模型掌握了这类预设规则,更多的数据并不能带来质的飞跃 ,其能力很快便会触及天花板。
这一观察,在与NLP领域的对比中显得尤为突出。NLP的巨大成功源于其核心范式——如next-token prediction——巧妙地将生成、理解与人类对齐统一在了一个自洽的闭环中。然而,图像作为一种源于自然的信号,其内在信息并不必然包含人类的理解方式。当读到Jason Wei关于CoT和LLM中“涌现能力”的论文时,他意识到NLP已在探索更高维度的推理,而CV仍停留在表征层面。
随后的研究揭示了一个关于“规模”的惊人悖论。在将语言模型扩展至万亿参数的过程中,团队发现模型的通用知识和对话能力随规模增长,但其严谨的逻辑推理与数学能力,在达到一个峰值后,反而呈现出 下降 的趋势。深层原因是,超大规模模型在模仿人类数据时,学会了在推理过程中“跳步”,即省略中间计算环节,直接给出答案。这种行为是next-token prediction范式本质的体现:该范式的终极目标是数据压缩,而非计算的准确性。一个为了极致拟合数据分布(即实现最高压缩率)的模型,会倾向于复现数据中包含“跳步”的快捷路径,但这恰恰牺牲了长链推理所必需的步骤严谨性,导致错误率在复杂问题中累积并激增。
这一根本性矛盾的解决方案,指向了RL。然而,真正的突破来自o1系列模型,其核心创新并非RL算法本身,而是引入了全新的思维pattern。研究发现,由于预训练极大地压缩了LLM的动作空间,RL在LLM上的运作方式与传统领域完全不同。 o1范式的革命性在于,它通过引入“反思”(reflection)机制 ,解决了Transformer架构单步计算复杂度有限的瓶颈,允许模型在一条推理路径走不通时,有能力回退、检验并探索其他路径。 这本质上是一种对“思考过程”的再思考,即Meta-CoT。
这种新范式展现了惊人的泛化能力。 一个仅在数学上训练的模型,能够自发地将“验证”、“回溯”、“推翻重来”等抽象的思考模式,应用到解决格律诗创作这类完全不同的任务上。 张翔宇认为,这种强大的泛化并非凭空产生,其根源在于这些高级思维pattern早已稀疏地存在于高质量的预训练数据中——例如,Stack Overflow上那些不仅给出答案,更详尽展示了其发现错误、修正思路过程的讨论。RL的作用,便是“激活”并强化了这些早已存在的、正确的思考模式。
在攻克推理难题的同时,另一个核心挑战——long context——也暴露出现有架构的局限。张翔宇批判道,当前的Transformer架构像一个无法遗忘的录音机,其记忆容量随信息输入线性增长,不进行任何有效的压缩或筛选。这不仅违背了“压缩产生智能”的原则,更会导致严重的“上下文干扰”问题,即过长的上下文会稀释模型的注意力,使其在处理后续任务时性能下降。
因此,他提出,未来的架构演进方向并非修补attention机制,而是转向一种更符合生物智能的、 基于multi-Agent协作的分层处理系统 。该系统可以由一个负责高层规划的规划模型,与多个负责短期、具体计算的执行模型组成。 执行模型的历史上下文可以被清空,模拟人类的“情景隔离”和注意力转移。 将一个需要千万token的巨大树状搜索,分解为log级别的路径深度,大幅减少了对上下文长度的需求。 该方案可通过端到端的RL训练 ,让整个系统自发学习出最高效的内部“注意力”管理机制,从而在不牺牲性能的前提下处理无限长的信息流。
展望未来,张翔宇认为AI算法的演进已从next-token prediction发展到RL,而当前RL范式对外部奖励和人工环境的依赖,是其最大的局限。下一个能在两年内到来的“GPT-4时刻”,将是自主学习的实现。其核心是赋予模型内在驱动力,使其能在一个开放世界中,从模糊、非结构化的反馈(例如人类复杂的口头评价)中进行在线学习和自我演化。这才是OpenAI定义的Agent的真正形态——一个能自我设定目标、独立解决未知问题的智能体,它将最终统一所有走向通用人工智能的技术路径。
来源:时空探险家