港中大团队:发现AI推理80%步骤可精简

B站影视 欧美电影 2025-08-14 16:40 3

摘要:这项由香港中文大学的李泽驹、钟建元等研究者以及华为技术有限公司的程莹莹、张帆共同完成的突破性研究,发表于2025年8月的arXiv预印本平台(论文编号:arXiv:2508.03346v1)。对这项研究感兴趣的读者可以通过https://github.com/


这项由香港中文大学的李泽驹、钟建元等研究者以及华为技术有限公司的程莹莹、张帆共同完成的突破性研究,发表于2025年8月的arXiv预印本平台(论文编号:arXiv:2508.03346v1)。对这项研究感兴趣的读者可以通过https://github.com/staymylove/COT_Compresstion_via_Step_entropy访问完整的代码和数据。

当我们看着那些超级聪明的AI模型解决复杂数学题时,就像观察一位学者在黑板上密密麻麻地写下推理过程。这些AI会生成很长很长的"思考链"——就像我们人类思考时在脑海中进行的那种一步步推理。但是,香港中文大学的研究团队最近发现了一个令人震惊的事实:这些看似复杂精密的AI思考过程中,竟然有高达80%的步骤是完全多余的!

这就好比一个厨师在做菜时,明明只需要5个步骤就能完成的料理,却硬是拉长到25个步骤,其中20个步骤都是在重复或者做一些无关紧要的动作。更令人惊讶的是,当研究团队把这些多余的步骤删掉后,AI的表现不仅没有下降,甚至还略有提升!

这个发现不仅仅是学术上的有趣观察,它直接关系到我们每个人的实际利益。当前这些强大的AI推理模型,比如最新的DeepSeek-R1和Qwen3系列,在解决复杂问题时会生成非常冗长的思考过程。这意味着更多的计算资源消耗、更长的等待时间,以及更高的使用成本。如果能够有效压缩这些思考链,就像给臃肿的软件做减肥手术一样,我们就能享受到更快速、更经济的AI服务。

研究团队的核心发现建立在一个叫做"步骤熵"的概念上。熵在这里可以理解为"不确定性"或"信息量"的度量。当AI在生成某个推理步骤时非常确定、毫不犹豫,那么这个步骤的熵就很低;相反,如果AI在多个可能的表达之间犹豫不决,那么熵就很高。研究团队发现,那些熵值很低的步骤——也就是AI生成得特别"轻松"的步骤——往往包含的有用信息很少,删掉它们并不会影响最终答案的质量。

这个洞察非常符合我们的直觉。当一个人在解释某个概念时,如果他说得特别流畅、不假思索,通常意味着这些话都是套话或者显而易见的内容;而真正有价值的洞察往往需要更多的思考和斟酌。AI的推理过程也遵循同样的规律。

一、揭开AI思考的神秘面纱:什么是思考链压缩

在深入探讨这项研究之前,我们需要先理解什么是AI的"思考链"。当我们让AI解决一个复杂的数学问题时,比如"计算991+993+995+997+999的和,然后用5000减去这个和",AI不会直接给出答案,而是会展示它的思考过程。

这个思考过程可能是这样的:首先,AI会说"我需要计算这些数字的和",然后"这些数字都接近1000,我可以用1000减去小数值来表示它们",接着"991=1000-9,993=1000-7"等等,一步一步地展示推理逻辑,最终得出正确答案。这种逐步展示推理过程的方法就叫做"思考链"(Chain-of-Thought,简称CoT)。

思考链的好处显而易见:它让AI的推理过程变得透明可见,我们可以跟踪AI的思路,发现潜在的错误,并且这种逐步推理确实能够提升AI在复杂任务上的表现。但问题也很明显:这些思考链往往冗长繁复,包含大量重复或者显而易见的步骤。

研究团队发现,当前最先进的推理模型生成的思考链中存在大量冗余。这种冗余就像一篇文章中反复强调同一个观点,或者像一个演讲者不断重复"嗯"、"那个"这样的填充词。虽然这些内容在某种程度上是推理过程的一部分,但它们对于最终答案的贡献微乎其微。

传统的思考链压缩方法主要分为两大类。第一类是让推理过程变得完全隐藏,就像把思考过程藏在AI的"大脑"深处,外界看不到,但这样就失去了思考链的透明性优势。第二类是在不同层面进行压缩,比如删除一些词汇或者合并一些句子,但这种方法缺乏系统性的指导原则,很难确定哪些内容应该被删除。

香港中文大学团队提出的方法属于第三类:基于信息论的系统性压缩。他们不是随意删减,而是用数学的方法来量化每个推理步骤的重要性。这就像给每个推理步骤打分,然后只保留那些分数高的步骤。这种方法既保持了思考链的可解释性,又显著提升了效率。

二、步骤熵:AI推理步骤的重要性测量仪

研究团队创新性地提出了"步骤熵"这个概念,它就像是一个精密的测量仪器,能够准确评估AI推理过程中每个步骤的重要程度。

要理解步骤熵,我们先从一个简单的类比开始。当你在和朋友聊天时,有些话你说得很流畅,几乎不需要思考,比如"今天天气不错";而有些话你需要仔细斟酌,比如在描述一个复杂的技术问题时,你可能会停顿、修正、重新组织语言。前者对应低熵的情况,后者对应高熵的情况。

在AI的世界里,步骤熵的计算基于一个关键观察:当AI生成某个词汇时,它实际上是在整个词汇表中做选择。如果AI对某个词汇非常确定,比如在"1+1="之后生成"2",那么其他选择的概率就很低,这种情况下熵值也很低。相反,如果AI在多个可能的词汇之间犹豫不决,比如在描述一个复杂概念时可能有多种表达方式,那么熵值就会比较高。

具体来说,研究团队首先将AI生成的完整思考链分解成一系列独立的推理步骤。每个步骤包含若干个词汇,比如"首先,我需要计算这些数字的和"是一个步骤。然后,他们计算AI在生成这个步骤中每个词汇时的不确定性,并将这些不确定性累加起来,得到整个步骤的熵值。

从数学角度来看,这个过程可以用香农熵的公式来描述。但用更直观的话来说,就是测量AI在生成这个步骤时有多"纠结"。如果AI生成得很轻松、很确定,那么这个步骤的熵就低;如果AI需要在多个选择之间权衡,那么熵就高。

研究团队通过理论分析证明了一个重要结论:当一个推理步骤的熵很低时,这个步骤与最终答案之间的信息关联也很弱。换句话说,那些AI生成得特别轻松的步骤,往往对解决问题的贡献也比较小。这就像一个经验丰富的老师在讲课时,那些他说得特别流利的部分往往是基础常识,而真正的重点和难点需要他停下来仔细思考如何表达。

这个理论发现为整个压缩方法提供了坚实的数学基础。它告诉我们,删除低熵步骤不是随意的剪切,而是有科学依据的精准手术。

三、惊人发现:80%的AI推理步骤竟是冗余

研究团队在验证他们的理论时,得到了一个令所有人都感到震惊的结果:在多个不同的AI模型和不同类型的数学问题上,删除80%的低熵推理步骤后,AI的答案准确率几乎没有任何下降,有时甚至还略有提升!

这个发现的重要性怎么强调都不过分。设想一下,如果有人告诉你,你日常工作中80%的活动实际上是不必要的,删掉它们不仅不会影响工作效果,反而可能让你表现更好,你会是什么感受?这正是研究团队在AI推理领域发现的情况。

为了验证这个发现,研究团队设计了一个对比实验。他们使用了三种不同的步骤删除策略:删除最低熵的步骤(即最"确定"的步骤)、删除最高熵的步骤(即最"不确定"的步骤),以及随机删除步骤。结果显示了三种策略的截然不同效果。

当删除低熵步骤时,AI的表现几乎不受影响。即使删除了80%的步骤,准确率依然保持在原来的水平。这证明了那些被删除的步骤确实是冗余的,它们的存在更像是AI的"自言自语",对解决问题没有实质帮助。

相反,当删除高熵步骤时,AI的表现立即出现显著下降。删除20%的高熵步骤就会导致准确率大幅降低,删除更多则会让AI的表现变得更糟。这说明高熵步骤包含了推理过程中的关键信息,删除它们就像拆掉建筑的承重墙一样危险。

随机删除的结果介于两者之间,但总体趋势是随着删除比例增加,性能逐渐下降。这进一步证明了基于熵值的选择性删除确实比盲目删除要有效得多。

更令人印象深刻的是,这个80%的"魔法数字"在多种不同的场景下都得到了验证。无论是7B参数的DeepSeek-R1模型、14B参数的DeepSeek-R1模型,还是8B参数的Qwen3模型,都展现出了相似的模式。无论是相对简单的GSM8k数学题,还是极具挑战性的AIME(美国数学竞赛)题目,这个规律都成立。

这种一致性表明,冗余不是某个特定模型的问题,也不是某类特定问题的特征,而是当前AI推理系统的一个普遍现象。这可能与这些模型的训练方式有关:为了确保生成完整的推理链,模型倾向于生成更多的步骤,即使其中许多步骤是重复或显而易见的。

研究团队还发现,这种压缩不仅不会损害性能,在某些情况下甚至能够提升性能。这个看似矛盾的现象其实有合理的解释:删除冗余信息后,关键信息变得更加突出,AI更容易聚焦于真正重要的推理步骤,从而做出更准确的判断。这就像清理掉杂乱的房间后,你更容易找到需要的物品一样。

四、智能压缩技术:让AI学会自己"减肥"

发现了80%冗余这个惊人规律后,研究团队面临一个新的挑战:如何让AI在实际应用中自动实现这种压缩?毕竟,每次都需要人工分析和删除步骤是不现实的。他们需要训练AI学会在生成推理过程时就自动跳过那些冗余的步骤。

这就像教会一个健谈的朋友如何在讲故事时抓住重点,避免不必要的絮叨。研究团队设计了一个巧妙的两阶段训练策略,让AI逐步学会这种"自我约束"的能力。

第一阶段被称为监督微调,就像给AI提供一本"标准答案"教科书。研究团队首先使用他们的熵值分析方法,对大量的推理样本进行预处理,将那些低熵的冗余步骤替换成特殊的"[SKIP]"标记。这就像在课本中把重复或显而易见的段落标记为"可跳过"。然后,他们让AI学习这些经过处理的样本,使其理解什么时候应该生成"[SKIP]"标记而不是冗长的推理步骤。

这个过程可以想象成训练一个学生学会做笔记的技巧。最初,学生可能会把老师说的每一句话都记下来,包括"嗯"、"那个"这样的语气词。通过学习优秀笔记的范本,学生逐渐学会只记录关键信息,跳过那些不重要的内容。

第二阶段采用了一种叫做"群体相对策略优化"(GRPO)的强化学习方法。这个名字听起来很复杂,但其实原理很简单:让AI在实际应用中尝试不同的压缩策略,然后根据效果给予奖励或惩罚,让它逐渐学会最优的压缩方式。

这就像训练一个演讲者学会控制演讲时间。演讲者会尝试不同的讲述方式,如果某种方式既能传达完整信息又能控制在规定时间内,就会得到正面反馈;如果讲得太冗长或者遗漏了重要内容,就会得到负面反馈。通过不断的尝试和调整,演讲者最终学会了既精炼又全面的表达方式。

在这个训练过程中,研究团队设计了一个综合的奖励机制,包含四个重要组成部分。首先是正确性奖励,确保AI在压缩思考链的同时不会影响答案的准确性。其次是跳过比例奖励,鼓励AI达到合适的压缩程度。第三是跳过数量限制,防止AI过度使用"[SKIP]"标记而变得过于简略。最后是回答长度控制,确保整体回答保持合理的简洁性。

这种多重奖励机制就像一个平衡的评价体系。一个好的摘要既要保持原文的核心信息(正确性),又要达到合适的长度(压缩比例),同时避免过度删减(跳过数量限制)和无关的冗余(长度控制)。

经过两阶段训练的AI模型展现出了令人印象深刻的能力。它们能够在生成推理过程时自动识别哪些步骤是重要的,哪些是可以跳过的,并相应地生成"[SKIP]"标记。更重要的是,这种自动压缩不仅保持了答案的准确性,在某些测试中甚至略有提升,同时显著减少了生成的文本长度。

五、跨越模型边界:普遍适用的压缩原理

这项研究最令人兴奋的发现之一是,步骤熵的压缩原理不是某个特定AI模型的特殊现象,而是一个具有普遍适用性的规律。研究团队在多个不同架构、不同规模的模型上都验证了这个发现,结果显示出了惊人的一致性。

他们测试了从7B参数到32B参数的多种模型,包括DeepSeek-R1系列的7B和14B版本、Qwen3的8B版本,以及QwQ的32B版本。这些模型采用了不同的训练方法、不同的架构设计,但都表现出了相似的冗余模式。无论模型大小如何,都能够安全地删除大约80%的低熵推理步骤而不影响性能。

更有趣的是,研究团队发现了一个规律:模型越大,生成的冗余步骤往往越多。32B参数的QwQ模型在某些任务上甚至可以删除超过70%的推理标记(tokens)而保持性能。这可能是因为大型模型在训练过程中学会了更加"保守"的推理策略,倾向于生成更多的解释性步骤来确保推理的完整性,但这也导致了更多的冗余。

这种跨模型的一致性表明,冗余现象源于当前AI训练方法的某种内在特征,而不是个别模型的设计缺陷。当前的大语言模型在训练时被要求生成完整、详细的推理过程,这种训练目标虽然提升了推理能力,但也不可避免地导致了过度详细的表述。

研究团队还在不同类型的数学问题上测试了压缩效果。从相对简单的GSM8k小学数学题,到极具挑战性的AIME美国数学竞赛题目,压缩策略都表现出了稳定的效果。有趣的是,越复杂的问题往往产生越多的冗余步骤,这意味着在处理高难度任务时,AI倾向于生成更多的"安全性"步骤,其中许多实际上是不必要的。

除了数学推理,研究团队还在知识性任务上进行了测试,比如医学院考试题目和历史问题。结果显示,不同类型的任务表现出了不同的冗余模式。历史类问题的冗余度往往更高,可能是因为这类问题更多依赖事实回忆而非复杂推理。医学问题的冗余度相对较低,可能因为医学推理需要更多的谨慎分析。

这些发现为AI系统的优化指明了方向。目前的AI模型在追求高性能的同时,产生了大量不必要的计算开销。通过理解和应用步骤熵的原理,我们可以在保持AI能力的前提下,显著提升其效率。

六、实际应用效果:显著的性能提升

研究团队的方法不仅在理论上令人信服,在实际应用中也展现出了显著的效果。经过两阶段训练的AI模型在多个标准测试集上都实现了令人印象深刻的性能提升。

在计算效率方面,压缩后的模型在不同任务上实现了35%到57%的文本生成量减少。这意味着在实际使用中,用户可以更快地得到答案,服务提供商可以处理更多的请求,整体的计算成本显著降低。这种效率提升在规模化部署时尤其重要,可能为AI服务的普及和成本控制带来重大影响。

更令人惊喜的是,这种大幅度的压缩不仅没有损害答案质量,在某些测试中甚至略有提升。在GSM8k数学题测试中,压缩后的模型准确率从78.54%提升到79.15%,同时减少了44%的文本生成量。这个结果表明,删除冗余信息实际上有助于AI更好地聚焦于关键的推理步骤。

在更具挑战性的数学竞赛题目上,压缩效果同样显著。AIME 2024的测试中,模型实现了57%的文本压缩,这在保持推理质量的同时大幅提升了响应速度。对于需要快速响应的实际应用场景,这种提升具有重要的实用价值。

研究团队还进行了一个重要的对比实验,比较了基于步骤的压缩方法与直接删除词汇的压缩方法。结果显示,随意删除词汇会快速导致性能下降,而基于步骤的删除则能够在大幅压缩的同时保持性能。这验证了他们的核心洞察:推理步骤是压缩的合适粒度,而不是更细粒度的词汇层面。

在奖励机制的设计验证中,研究团队发现每个奖励组件都发挥着重要作用。仅使用准确性和压缩比例奖励会导致模型生成过多的无意义"[SKIP]"标记,反而降低了整体效果。只有在加入了跳过数量限制和回答长度控制后,模型才学会了真正有效的压缩策略。

这些实验结果证明,步骤熵压缩不是一个理论上的技巧,而是一个在实际应用中具有重大价值的技术突破。它为AI系统的部署提供了一个新的优化维度,使得我们可以在保持智能水平的同时显著提升效率。

七、方法的局限性与未来展望

尽管这项研究取得了令人瞩目的成果,但研究团队也坦诚地指出了当前方法的一些局限性。首先,80%这个"魔法数字"是基于特定的模型架构和数学推理任务得出的,可能不能直接应用于所有类型的AI模型和所有类型的任务。

不同的AI模型由于训练方法、架构设计的差异,可能表现出不同的冗余模式。虽然研究团队在多个模型上都观察到了相似的现象,但最优的压缩比例可能需要根据具体的模型特性进行调整。这就像不同品牌的汽车可能需要不同的保养策略一样,AI模型的优化也可能需要个性化的处理。

其次,当前的研究主要集中在数学推理任务上,对其他类型的任务,比如创意写作、情感分析、复杂对话等,压缩策略的效果还需要进一步验证。不同类型的认知任务可能具有不同的冗余特征,需要相应调整压缩策略。

研究团队在MMLU知识问答任务上的初步探索显示了一些有趣的差异。历史类问题似乎比医学类问题包含更多可压缩的冗余,这提示我们可能需要开发任务感知的自适应压缩策略。

此外,当前的方法需要对现有模型进行重新训练才能实现自动压缩功能。这在实际部署中可能面临一定的技术和成本门槛。未来的研究可能需要探索更加轻量级的压缩方法,比如在推理时动态识别和跳过冗余步骤,而不需要修改模型的内部参数。

尽管存在这些局限性,这项研究为AI系统优化开辟了一个全新的方向。它证明了当前的AI推理系统存在巨大的效率提升空间,而且这种提升可以在不牺牲性能的前提下实现。这为未来更高效的AI系统设计提供了重要启示。

未来的研究方向可能包括开发更加精细的冗余检测算法、探索不同任务类型的特定压缩策略、以及设计能够实时自适应调整压缩程度的智能系统。随着AI模型规模的不断增大和应用场景的不断扩展,这种效率优化技术的重要性只会继续增长。

这项研究不仅为当前的AI系统部署提供了实用的优化工具,更重要的是,它揭示了AI推理过程的内在结构特征,为我们理解和改进人工智能系统提供了新的视角。正如研究团队所指出的,这种发现对于AI技术的可持续发展和大规模应用具有深远的意义。

说到底,这项来自香港中文大学团队的研究告诉我们一个令人震撼的事实:我们一直以为那些看起来复杂精密的AI推理过程中,竟然有高达80%的部分是多余的装饰。这就像发现一台看似精密的机器中有很多并不转动的齿轮一样令人意外。

更重要的是,这个发现不仅仅是一个有趣的学术观察,它直接关系到我们未来使用AI服务的体验。当AI能够学会"少说废话,直击要点"时,我们就能享受到更快的响应速度、更低的使用成本,以及更高效的问题解决过程。这就像给一个健谈但有时啰嗦的专家顾问进行了"表达效率训练",让他能够在保持专业水准的同时,用更简洁的方式传达关键信息。

这项研究还揭示了AI发展中一个有趣的现象:有时候"做减法"比"做加法"更有价值。在人工智能领域,我们往往倾向于追求更大的模型、更多的参数、更复杂的架构,但这项研究提醒我们,智能的本质可能更在于如何优雅地简化复杂性,而不是单纯地堆砌复杂性。

对于普通用户来说,这项技术的成熟和普及意味着未来的AI助手将变得更加高效和经济。对于AI研究者和开发者来说,这项工作开启了一个新的优化方向,提醒我们在追求AI能力提升的同时,也要关注效率和可持续性。

归根结底,这项研究体现了科学研究的魅力:通过深入观察和严谨分析,发现了隐藏在表面现象背后的深层规律,并将这种发现转化为实用的技术改进。这不仅推进了人工智能技术的发展,也为我们理解智能系统的工作原理提供了新的视角。对于想要深入了解这项研究细节的读者,可以通过论文的GitHub页面获取完整的代码和数据,亲自验证这些令人惊讶的发现。

Q&A

Q1:什么是步骤熵,它是如何工作的?

A:步骤熵是一种测量AI推理步骤重要性的方法,类似于给每个推理步骤打分。当AI生成某个步骤时很确定、很流畅,说明这个步骤的熵值低,通常包含的有用信息也少;相反,如果AI在生成时需要在多个选择间权衡,熵值就高,通常包含更重要的推理信息。

Q2:为什么删掉80%的推理步骤后AI表现反而更好了?

A:因为那些被删掉的是冗余步骤,就像清理掉杂乱房间中的无用物品后更容易找到需要的东西。删除这些重复或显而易见的推理步骤后,关键信息变得更加突出,AI更容易聚焦于真正重要的推理环节,从而提升了整体表现。

Q3:这种AI思考链压缩技术什么时候能在日常应用中使用?

A:目前这项技术已经在实验环境中取得成功,能够实现35-57%的效率提升。不过要应用到日常AI服务中,还需要针对不同类型的任务进行优化调整,并解决大规模部署的技术问题。预计未来几年内会逐步在各种AI应用中看到类似的优化技术。

来源:至顶网

相关推荐