摘要:如果我告诉你,跟着一个偶尔指错路、但会耐心解释“为什么可能走这条路,以及当前判断依据是什么”的导航学习认路,比直接跟着永远精确指向目的地的导航,更能让你真正学会认路、举一反三,你会相信吗?
原创chouti涌现聚点
如果我告诉你,跟着一个偶尔指错路、但会耐心解释“为什么可能走这条路,以及当前判断依据是什么”的导航学习认路,比直接跟着永远精确指向目的地的导航,更能让你真正学会认路、举一反三,你会相信吗?
涌现聚点
涌现聚点 人工智能·AGI·大模型 聚焦 AI 涌现性,探讨智能演化 抽屉的 AI 观察
493篇原创内容
公众号
这听起来或许有些违背直觉。但在人工智能领域,Google Research 和 Google DeepMind 的研究人员最近似乎得出了一个极为相似的结论。他们在一篇题为 《Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models》[1] 的预印论文中揭示:让大型语言模型(LLM)模仿一个基于概率进行推理、有时会给出“错误”建议的“贝叶斯老师”,其学习效果竟然显著优于直接学习包含“正确答案”的用户真实选择。
这究竟是实验中的偶然现象,还是我们对 AI 学习方式的理解,需要一次彻底的刷新?这个反直觉的发现背后,可能隐藏着关于机器智能如何获得真正理解力和泛化能力的深刻秘密,尤其为我们一直头疼的个性化推荐系统带来了新的曙光。
想象一个场景:你正在与一个 AI 航班预订助手互动。你心里有一套关于价格、时长、中转次数、出发时间的偏好,但这套偏好 AI 并不知道。每一轮,AI 会给你看几个航班选项,并推荐它认为你最可能喜欢的那个。你选择后,告诉 AI 你的选择是否与它的推荐一致,以及你真正选了哪个。AI 的目标,就是通过这几轮互动,越来越懂你,推荐得越来越准。
图示:航班推荐任务的基本交互流程。AI需要根据用户的反馈不断调整推荐策略。
这正是 Google 研究人员设计的核心实验场景。在这个场景下,他们对比了两种截然不同的“老师”来训练 AI(具体来说是 Google 的 Gemma 模型):
“神谕老师” (Oracle Teaching): 这位老师拥有“上帝视角”,永远知道用户的真实偏好和最终选择。AI 的学习目标非常直接:模仿这位老师,永远给出那个用户实际会选的“正确答案”。这类似于我们常见的监督学习(Supervised Fine-Tuning, SFT),用标注好的标准答案去训练模型。“贝叶斯老师” (Bayesian Teaching): 这位老师则是一位严谨的概率推理大师。它不直接看“标准答案”,而是根据已经观察到的用户选择,实时地、动态地计算和更新对用户 所有可能偏好 的概率分布。然后,它基于当前这个概率分布,做出一个 当下看起来最优 的推荐。这个推荐是“有根据的猜测”,可能符合用户的最终选择,也可能因为信息不足而暂时“猜错”。AI 的学习目标,是模仿这位老师进行概率性猜测的推理过程。我们可以用下面的流程图来更清晰地展示这两种教学模式的区别:
图示:神谕式教学直接学习正确答案,而贝叶斯教学则学习模仿一个基于概率进行推理的过程。
核心区别在于:一个是教 AI “结果是什么”,另一个是教 AI “如何根据现有证据进行推理判断”。那么,哪种方式更能让 AI 变聪明呢?
实验结果清晰得令人惊讶。
首先看推荐准确率。研究论文中的 Figure 2a 给出了最核心的证据:经过“贝叶斯教学”训练的 Gemma 模型 (Gemma Bayesian),其最终推荐准确率不仅显著高于直接学习正确答案的“神谕教学”模型 (Gemma Oracle) 和未经微调的原始模型 (Original LLM),更关键的是,它的学习曲线呈现出持续上升的态势。这意味着,随着交互轮次的增加,它能不断从用户反馈中学习,推荐越来越准。
相比之下,“神谕教学”模型和原始模型,在经过一两轮交互后,准确率很快就进入了平台期,无法有效利用新信息。
图源:arXiv:2503.17523, Figure 2a - 不同模型在多轮交互中的准确率对比。贝叶斯教学(橙线)展现出持续学习能力,而其他模型很快停滞。
数据明确指向一个结论:学习“如何推理”的过程,比学习“正确答案”本身,更能让 AI 获得持续学习和适应的能力。
Figure 4a 和 4b
更进一步的证据来自 Figure 4a 和 4b。研究人员还测试了 AI 模型在推荐之外,能否准确“说出”它对用户偏好的判断(例如,用户对价格的偏好是 1-5 分中的几分)。结果显示,“贝叶斯教学”训练的模型不仅推荐行为更准,其“口头表达”出的对用户偏好的信念也更接近真实情况,并且这种“所想”(信念)与“所为”(推荐)之间的一致性 (consistency) 也是最高的。
这说明,“贝叶斯教学”训练出的 AI,不仅是“做对了”,在某种程度上,它还“想对了”。它似乎真的在内部建立起了一个更准确、更动态的用户偏好模型。
为什么模仿一个可能犯错的“概率老师”,效果反而更好?这似乎挑战了我们“学习就该学正确答案”的常识。深入挖掘其机制,答案可能在于“贝叶斯老师”传递了远比“标准答案”丰富得多的信息:
信息价值:过程比结果更丰富。“神谕老师”给出的“正确答案”,本质上只提供了 1 比特的信息:这个选项是对的,其他是错的。而“贝叶斯老师”的每一次“概率性猜测”,即使最终结果是错的,其给出的概率分布本身就蕴含了丰富得多的信息:基于当前证据,各个偏好的可能性分别是多少?模型是如何在不同选项间进行权衡的?这种关于不确定性的量化和推理过程的轨迹,为 LLM 提供了更密集的学习信号。正如信息论视角分析[2]所揭示的,学习贝叶斯助手的概率预测可能提供更丰富或更有效的学习信号,因为它编码了信念更新的轨迹和证据权重,信息熵远高于二元标签。这就像学习解一道复杂的数学题。只看最终答案,你下次遇到变体可能还是不会。但如果看详细的解题步骤——包括老师尝试了哪些思路、排除了哪些错误方向、最终如何推导出答案——你才能真正掌握解题的方法,做到举一反三。学习目标:掌握“推理策略”而非“模式匹配”。直接学习“正确答案”的“神谕式教学”,可能让 LLM 倾向于学习从输入(用户历史交互 + 当前选项)到输出(正确选项)的表面模式映射。它可能只是“记住”了在某些情况下哪个选项更可能对,但并未理解背后的原因。而“贝叶斯教学”迫使 LLM 学习更底层的逻辑:如何评估新证据?如何根据证据更新内部的概率信念?如何在信息不充分的情况下做出最合理的决策? 这不再是简单的模式匹配,而是在学习一种可泛化的推理策略。有研究指出,“贝叶斯教学”可能鼓励 LLM 学习抽象的推理策略或启发式方法,而非仅仅拟合输入输出模式,正如 一篇探讨 LLM 如何学习抽象策略的论文[3] 所讨论的那样。拥抱不确定性:通往鲁棒智能的关键。真实世界充满了不确定性。无论是用户模糊的意图、不完整的反馈,还是外部环境的变化,一个真正智能的系统必须能够有效地表达和处理不确定性。贝叶斯框架的核心优势就在于此。“贝叶斯老师”的每一次概率预测,都是对当前不确定性状态的最佳刻画。LLM 在模仿这个过程中,潜移默化地学会了如何在信息不足时保持谨慎,在获得新证据时调整判断,从而获得更强的鲁棒性。学习处理不确定性是发展鲁棒推理能力的关键,而“贝叶斯教学”正促进了 LLM 在这方面的能力,正如 Normal Computing 关于不确定性感知 LLM 库的研究[4]所强调的。这与 人工智能中不确定性推理的重要性[5] 是一致的。认知科学的印证:过程学习的力量。教育心理学的研究早已表明,注重探索、实验和反思的过程导向学习,相比只关注结果的死记硬背,更能促进深度理解、批判性思维和知识的迁移应用能力,正如 Learning Corner 对此概念的阐释[6]。缺乏对推理过程的理解会阻碍学习者将知识应用到新的、相似的任务中,即使他们掌握了足够的内容知识,正如 一项关于物理学推理迁移的研究[7]所发现的。甚至有研究表明,强调过程而非结果的反馈[8] 在分析型任务中能带来更大的进步。“贝叶斯教学”的成功,恰恰在 AI 领域印证了这一古老的教育智慧:理解“为什么”比知道“是什么”更重要。推荐系统“开窍”:告别“瞎猜”,走向“理解”
这种学习“推理过程”的能力,对于个性化推荐系统而言,无异于打通了“任督二脉”。当前主流推荐系统面临的诸多痛点,恰恰源于其“猜”而非“懂”的模式。下表总结了部分核心挑战:
多样性缺乏/过滤气泡兴趣过度集中;广告转化率降低推荐列表同质化;探索行为少政治立场偏差;观点固化隐私/伦理困境联邦学习准确率下降;歧视风险算法偏见导致流派分布偏差观点多样性提升成本高(表格内容:总结自多项研究,展示推荐系统面临的普遍挑战)
上表突显了当前推荐系统普遍面临的难题。例如,在电商领域,研究显示[9]约有30%的新品因缺乏交互数据而难以获得有效推荐,同时另一项研究指出[10]新用户的初期转化率显著低于老用户。在流媒体平台,过度优化可能导致高达72%的长尾内容曝光不足[11],用户的主动探索行为比例极低[12]。新闻聚合则面临过滤气泡[13]和难以跟上突发事件后用户兴趣变化[14]的问题。此外,偏好漂移导致推荐效用衰减[15],以及隐私保护与推荐效果之间的权衡[16],都是跨行业的共同挑战。
而学会了贝叶斯推理的 LLM,则有望带来质的改变:
应对冷启动: 贝叶斯框架允许结合先验知识(如平台通用用户画像),并在少量交互后快速更新信念,更灵活地启动个性化推荐。这与 亚马逊在产品搜索中应用经验贝叶斯解决冷启动问题的思路[17] 类似。已有研究探索知识图谱增强等方法,提升冷启动商品 CTR 达 42% 知识图谱增强冷启动[18]。适应偏好变化: 掌握了“如何更新信念”的 AI,自然能更敏锐地捕捉用户兴趣的动态变化,持续提供相关推荐。在线学习平台的实验显示,基于贝叶斯教学的方法能有效应对偏好漂移,提升用户留存,例如通过分层信念更新和概念漂移检测 在线学习应用场景[19]。苹果公司提出的统一贝叶斯框架 BayesCNS[20] 也旨在解决大规模搜索系统中的非平稳性问题。理解复杂权衡: AI 不再是简单匹配特征,而是能模拟用户在多目标间的权衡过程,做出更符合用户真实意图的推荐。例如,在规划旅行时,能理解用户在“省钱”和“省时”之间的动态平衡点,或者在职业培训中平衡技能掌握度和学习粘性,这与 多目标优化研究[21] 的方向一致。提升多样性与惊喜度: 基于更深层理解的推荐,可能跳出简单的“相似性”陷阱,挖掘用户潜在的、更广泛的兴趣点,带来更多探索和发现的乐趣。已有研究通过生成式对抗等方法,在保持准确率的同时提升推荐惊喜度 GS²-RS 模型[22]。Spotify 等公司也在探索使用贝叶斯方法[23] 来平衡探索与利用。让我们畅想一个具体的场景:你最近在音乐 App 里,听歌风格从以前常听的流行突然转向了氛围电子乐。
旧系统可能会: 继续推荐流行歌,或者简单地推一些热门的氛围电子乐单曲。基于“贝叶斯教学”的新系统则可能:快速更新模型: 通过概率信念更新,识别到你听歌风格的显著变化。深入探究原因: 通过分析你对不同氛围电子乐的细微反馈(比如,对某些节奏舒缓、带有合成器琶音的曲子播放完成度高,而对另一些节奏强劲的则很快跳过),利用类似贝叶斯网络的内部结构[24]推断你可能是在寻找一种特定的情绪(放松、专注?)或音乐元素。精准推荐与探索: 不仅推荐符合你细分品味的氛围电子乐,还可能基于对你潜在动机的理解,推荐一些风格略有差异但情绪或元素相似的音乐,比如某些后摇滚或者简约古典,带来意想不到的惊喜。这项研究最令人兴奋的,或许还不是对推荐系统的改进本身,而是其所揭示的泛化能力。
Google 的研究人员发现,在航班推荐任务上通过“贝叶斯教学”习得的概率推理能力,可以成功迁移到特征数量不同的航班任务、全新的领域(如酒店推荐),甚至是结构差异巨大、难以精确建模的网络购物任务上(原文 Figure 5)!在这些模型从未专门训练过的任务上,“贝叶斯教学”模型依然表现出色,显著优于原始模型和“神谕教学”模型。
图源:arXiv:2503.17523, Figure 5c - 模型在不同推荐域的泛化表现。绿色代表的贝叶斯教学模型在酒店和购物任务上依然保持优势。
这意义重大。它证明了 LLM 不仅能学习特定任务的“知识”,还能学习更底层的、可迁移的“推理技能”。泛化能力一直是衡量 AI 是否真正“智能”、能否迈向通用人工智能(AGI)的关键标尺和瓶颈,正如 一些研究指出的[25],缺乏泛化能力是当前 AI 的主要认知局限。当 AI 能够将在一个领域学到的思考方式应用到全新的、未知的领域时,它才真正展现出超越模式匹配的智能火花。
“贝叶斯教学”所促进的这种学习可泛化推理策略的能力,也与其他前沿 AI 概念紧密相连,如世界模型(AI 对环境运行规律的内部模拟,相关研究[26])、因果推理(理解事物间的因果关系而非仅仅相关性,Judea Pearl 等学者强调其重要性[27])和元学习(学会如何学习,相关研究[28])。它们共同指向一个方向:构建能够理解世界、适应变化、并进行灵活推理的更强大的 AI 系统。
当然,“贝叶斯教学”并非没有挑战。将其从实验室推向大规模现实应用,仍有几座大山需要翻越:
“贝叶斯老师”的构建难题: 对于航班推荐这类规则相对清晰的领域,构建一个理想的贝叶斯模型是可行的。但对于更复杂、主观、高维度的领域,比如创意内容生成(如何量化“美感”偏好?)、复杂的 B2B 决策支持(影响因素众多且动态变化),如何构建或可靠地近似这个“最优老师”本身就是一个巨大挑战。正如一些研究指出的[29],在高维空间进行有效的贝叶斯优化本身就极具挑战性,更不用说形式化主观和上下文相关的偏好了,这在 B2B 决策支持系统的研究[30] 中有所体现。计算成本与延迟: 相比简单的 SFT,“贝叶斯教学”需要在训练中模拟概率推理过程,并在推理时可能需要维护和更新信念状态,这带来了额外的计算开销(可能增加 20-30% 的算力需求)和潜在的延迟增加(可能突破实时交互所需的 300ms 阈值)部署挑战分析[31]。虽然有分析认为其长期成本可能更低[32](例如,在交互量超过 500 万次后单位成本低于 RLHF),但初期的算力门槛和实时性要求不容忽视,可能需要新的硬件架构(如支持概率计算的芯片)和复杂的工程优化 硬件适配问题[33]。真实世界的噪声与复杂性: 现实用户的行为充满了不一致(例如偏好突然转变)、随机点击(噪声反馈比例超过 15% 时模型收敛速度会下降 58%)和难以预测的上下文依赖,远比实验环境复杂。“贝叶斯教学”模型在真实噪声环境下的长期稳定性和鲁棒性仍有待大规模验证,需要 鲁棒贝叶斯滤波等技术[34] 来应对 长期稳定性挑战[35]。回到开篇那个反直觉的谜题。Google 的这项研究,或许恰恰揭示了智能学习的一个本质:真正的智慧,不在于对所有问题都拥有“标准答案”,而在于掌握获取和处理信息、在不确定性中做出最佳判断的“过程”。
“贝叶斯教学”的成功,是人工智能领域一次激动人心的尝试,它试图将这种宝贵的“过程智慧”赋予机器。这不仅关乎我们能否打造出更懂你的推荐引擎、更聪明的对话伙伴,更关乎 AI 能否最终摆脱“鹦鹉学舌”的模式匹配,进化到真正拥有理解、推理和适应能力的阶段。
这代表了 AI 从“记忆库”向“思考者”转变的一缕曙光。当 AI 真正学会了思考,我们的世界,又将迎来怎样一番景象?这值得我们每一个人期待和深思。
来源:人工智能学家