NVIDIA团队：小模型如何成为AI代理未来？

摘要：在当前人工智能飞速发展的时代，来自NVIDIA研究团队的Peter Belcak、Greg Heinrich、Shizhe Diao、Yonggan Fu、Xin Dong、Saurav Muralidharan、Yingyan Celine Lin和Pavl

在当前人工智能飞速发展的时代，来自NVIDIA研究团队的Peter Belcak、Greg Heinrich、Shizhe Diao、Yonggan Fu、Xin Dong、Saurav Muralidharan、Yingyan Celine Lin和Pavlo Molchanov等研究人员于2025年6月2日在arXiv上发表了一篇前瞻性论文《Small Language Models are the Future of Agentic AI》（小语言模型是智能代理AI的未来）。这篇尚在审核中的预印本论文提出了一个可能会改变整个AI行业运营模式的重要观点。

想象一下，如果我们把当前的AI世界比作一个庞大的图书馆系统。大型语言模型（LLM）就像是那些能解答各种问题的百科全书馆员，无论你问什么，他们都能给出合理回答。但问题是，这些"全能型馆员"需要占据大量空间，消耗巨大能源，而且调用他们的成本非常高。而现在，NVIDIA的研究团队告诉我们，对于许多特定任务，我们其实并不需要这些"全能型馆员"，一些专门负责特定区域的"专业馆员"就足够了——这些就是小型语言模型（SLM）。

研究团队指出，当前大多数AI智能代理系统（就是那些能帮你预订机票、编写代码或回答问题的AI助手）主要依赖于强大但资源密集的大型语言模型。然而，随着智能代理应用的兴起，这些系统通常只执行有限数量的专门任务，而且是重复性地执行，变化不大。这就像你每天只使用百科全书查几个固定的问题，实在是大材小用。

在这种情况下，研究人员认为小语言模型（SLM）——那些可以在普通消费电子设备上运行并具有实用响应速度的模型——不仅足够强大，而且在操作上更适合智能代理系统，并且在经济上也必然更为节约。

一、小语言模型的力量：比你想象的更强大

你可能会想，小语言模型真的能胜任智能代理系统的复杂任务吗？答案是肯定的。近年来，小语言模型的能力有了显著提升。尽管语言模型的规模与能力之间的关系仍然存在，但最新的小语言模型与早期的大型模型相比已经缩小了差距。

微软的Phi系列就是一个很好的例子。Phi-2只有2.7亿参数，却在常识推理和代码生成方面达到了与30亿参数模型相当的分数，同时运行速度快了约15倍。更新的Phi-3 small（7亿参数）在语言理解和常识推理方面与同一代的70亿参数模型相当。

NVIDIA自己的Nemotron-H系列（2/4.8/9亿参数的混合Mamba-Transformer模型）在指令遵循和代码生成准确性上可以与同代的30亿参数大型语言模型相媲美，而计算量只有后者的十分之一。

Huggingface的SmolLM2系列、NVIDIA的Hymba-1.5B、DeepSeek的R1-Distill系列等众多小型模型都展示了类似的能力——在特定任务上能够达到甚至超越更大模型的性能。

研究人员还指出，小语言模型的推理能力可以通过自一致性、验证器反馈或工具增强等技术在推理时进一步提升。例如，Toolformer（6.7亿参数）通过API使用在特定任务上超越了GPT-3（1750亿参数），而1-3亿参数的模型通过结构化推理在数学问题上媲美了30亿以上的大型语言模型。

简单来说，现在的小语言模型已经足够聪明，完全可以处理智能代理系统中的大部分任务，而且它们正在变得越来越聪明。

二、经济与效率：小语言模型的无可争议的优势

想象一下，你需要从城市的一端到另一端。大型语言模型就像是一辆大型豪华巴士——能载很多人，功能齐全，但即使只有你一个乘客，也需要消耗同样多的燃料和占用同样大的道路空间。而小语言模型则像是一辆电动自行车——轻便、灵活、经济，完全能满足你的需求。

研究表明，服务一个7亿参数的小语言模型比服务一个70-175亿参数的大型语言模型要便宜10-30倍（无论是延迟、能耗还是计算量）。这使得智能代理系统能够以更低的成本提供实时响应。

小语言模型的微调也更加灵活高效。参数高效微调（如LoRA和DoRA）或全参数微调对于小语言模型来说只需要几个GPU小时，而不是几周时间。这意味着开发者可以在一夜之间添加、修复或专门化模型行为，而不是等待数周。

边缘部署是另一个巨大优势。像ChatRTX这样的设备内推理系统展示了小语言模型可以在消费级GPU上本地执行，实现实时、离线的智能代理推理，延迟更低，数据控制更强。

此外，大型语言模型虽然看起来像单体系统，但实际上在生成输出时只使用了一小部分参数。研究表明，小语言模型在这方面可能从根本上更有效率，因为它们有更高比例的参数实际参与推理过程。

模块化系统设计是另一个支持小语言模型的强有力论点。研究人员指出，利用不同规模的多个模型组成智能代理系统——通过添加小型专家模型而不是扩大单一模型——可以产生更便宜、更容易调试和部署的系统，同时更好地适应实际应用的多样性。

三、灵活性与适应性：小语言模型的天然优势

小语言模型就像是能迅速适应不同环境的小型哺乳动物，而大型语言模型则像是庞大的恐龙——强大但适应性较差。由于小语言模型的规模小和相关的预训练和微调成本降低，它们在智能代理系统中比大型语言模型具有更大的操作灵活性。

这种效率使得为不同的智能代理程序训练、调整和部署多个专业专家模型变得更加经济实惠和实用。开发者可以快速迭代和适应，满足不断变化的用户需求，包括支持新行为、满足新的输出格式要求，以及遵守特定市场的不断变化的本地法规。

这种灵活性的一个特别值得注意的积极后果是智能代理的民主化。当更多的个人和组织能够参与语言模型开发并将其部署在智能代理系统中时，智能代理的总体人口更有可能代表更多样化的观点和社会需求。这种多样性可以帮助减少系统性偏见的风险，并鼓励竞争和创新。

四、智能代理系统的本质需求与小语言模型的契合性

智能代理应用本质上是一个被严格指导和外部编排的语言模型网关，它具有人机界面和一系列工具，当正确使用时，可以完成有用的任务。从这个角度来看，原本被设计为强大通用型的大型语言模型通过一系列精心编写的提示和精心编排的上下文管理，被限制在其技能范围的一小部分内运行。

这就像一位多才多艺的厨师被限制只能做简单的煎蛋一样——大材小用。而小语言模型针对特定提示进行适当微调，就足以完成任务，同时还具有上述更高效率和更大灵活性的优势。

此外，智能代理系统需要与代码频繁交互，无论是通过语言模型工具调用还是返回由智能代理代码解析的输出。这些交互的成功关键在于生成的工具调用和生成的输出符合工具参数的顺序、类型和性质以及调用语言模型的代码的预期所施加的严格格式要求。

在这种情况下，经过单一格式决策训练的小语言模型比通用大型语言模型更可取，因为它更不可能出现偶然的幻觉错误，导致回复的格式与智能代理系统的"代码部分"所期望的不同。

五、智能代理系统的自然异构性与数据收集优势

语言模型本身可以是由另一个语言模型调用的工具。同样，每次智能代理的代码调用语言模型时，原则上可以选择任何语言模型。这种架构为引入不同规模和能力的多个语言模型提供了自然途径。

研究人员提出，在智能代理过程中调用工具和语言模型时，通常会附带精心提示，将语言模型集中在当时所需的狭窄功能上。这些调用本身就是未来改进的数据来源（假设没有处理不可保留的机密数据）。

监听工具/模型调用接口的程序可以收集专门的指令数据，以后可用于微调专家小语言模型，降低未来调用的成本。研究人员认为，这种途径是由智能代理的架构启用的，产生高质量的有机数据，从而使生产专家小语言模型取代大型语言模型成为智能代理部署中的自然步骤。

六、转换过程：从大型语言模型到小语言模型的智能代理转换算法

智能代理应用的本质使它们最终能够在许多接口上从使用大型语言模型通用型模型转向使用小语言模型专家。研究团队概述了一种可能的算法，描述了如何无痛地进行底层模型更改：

首先，部署仪器记录所有非人机交互代理调用，捕获输入提示、输出响应、单个工具调用的内容，以及可选的延迟指标，以便后期有针对性的优化。在实施方面，建议设置加密日志管道，并在存储前匿名化所有数据。

接下来是数据策划和过滤。一旦收集了足够的数据（按照经验法则，10-10万个示例足以微调小型模型），就需要移除任何个人身份信息、健康信息或可能在用户账户之间造成数据泄露的其他应用特定敏感数据。

然后对收集的提示和代理操作进行无监督聚类，以识别请求或内部代理操作的重复模式。这些集群有助于定义小语言模型专业化的候选任务。任务的粒度将取决于操作的多样性。

随后为每个已识别任务选择一个或多个候选小语言模型，选择标准包括小语言模型的固有能力、其在相关基准测试上的性能、许可和部署足迹。前面提到的模型都是很好的起点。

最后，为每个选定任务和相应的小语言模型候选从步骤二和三中收集的数据中准备特定于任务的数据集。然后在这些专业数据集上微调所选小语言模型。可以利用参数高效微调技术（如LoRA或QLoRA）来降低与微调相关的计算成本和内存要求。在某些情况下，使用知识蒸馏可能有益，其中专家小语言模型被训练模仿更强大的通用大型语言模型在特定于任务的数据集上的输出。

最后，可以定期用新数据重新训练小语言模型和路由模型，以保持性能并适应不断变化的使用模式。这形成了一个持续改进循环。

七、潜在障碍与应对之策

你可能会问：如果小语言模型真的这么有优势，为什么现在的智能代理系统似乎仍然主要使用大型语言模型呢？研究团队认为，目前存在几个主要障碍：

首先是对中央化大型语言模型推理基础设施的大量前期投资。正如论文开头所述，大量资本押注于中央化大型语言模型推理将成为未来提供AI服务的主导范式。因此，行业在构建工具和基础设施方面速度更快，忽略了在不久的将来，更分散的小语言模型或设备内推理可能同样可行的可能性。

其次是在小语言模型训练、设计和评估中使用通用基准。研究人员指出，小语言模型设计和开发的许多工作都遵循大型语言模型设计的轨迹，侧重于在开发中使用相同的通用基准。然而，如果只关注衡量智能代理实用性的基准，研究中的小语言模型很容易就能胜过更大的模型。

第三是缺乏普及意识。小语言模型通常没有接收到大型语言模型那样的营销强度和媒体关注，尽管它们在许多工业场景中更适合。

研究人员强调，这些障碍都是实际障碍，远非小语言模型技术在智能代理AI背景下的根本缺陷。随着先进的推理调度系统（如Dynamo）的出现，第一个障碍正在被减少为单纯的惯性效应。第二个障碍在该领域越来越被认可，第三个障碍一旦小语言模型在智能代理应用中的经济效益更广为人知，自然会消失。

八、实际案例研究：小语言模型替代的潜力

为了具体说明小语言模型替代大型语言模型的潜力，研究团队对三个流行的开源智能代理进行了案例研究：MetaGPT、Open Operator和Cradle。

MetaGPT是一个多智能代理框架，旨在模拟软件公司。它为产品经理、架构师、工程师和QA工程师等角色分配任务，协作处理包括需求起草、系统设计、实施和测试在内的任务。对于MetaGPT，研究人员估计约60%的大型语言模型查询可以由适当专业化的小语言模型可靠处理。小语言模型特别适合常规代码生成和样板任务，以及基于预定义模板生成结构化响应。

Open Operator是一个工作流自动化智能代理，使用户能够定义可以使用工具和服务执行API调用、监控和编排等任务的智能代理行为。研究人员估计约40%的大型语言模型查询可以由小语言模型处理，特别是简单的命令解析和路由，以及基于预定义模板生成消息。

Cradle专为通用计算机控制设计，使智能代理能够通过屏幕截图输入和模拟用户交互操作GUI应用程序。研究人员估计约70%的大型语言模型查询可以由小语言模型处理，特别是处理重复性GUI交互工作流和执行预学习的点击序列。

这些案例研究表明，在实际的智能代理应用中，相当大比例的大型语言模型调用可以由小语言模型替代，从而提高效率和降低成本。

九、结论与展望

智能代理AI行业正在迅速发展，有望对各行各业产生变革性影响。研究团队认为，任何能够降低AI基础设施成本或提高可持续性的措施都将加速这一转变。

小语言模型在智能代理系统中提供了一条更高效、更灵活、更经济的路径。尽管目前的行业惯性仍然支持大型语言模型的广泛使用，但小语言模型的优势——从计算效率到经济性再到适应性——表明它们很可能成为未来智能代理AI的基石。

研究团队呼吁对他们的观点进行讨论、贡献和批评，承诺在research.nvidia.com/labs/lpr/slm-agents发布所有此类通信。他们的观点不是提出一个建议或试图强加义务，而是陈述他们所看到的社区价值观在这一背景下的忠实反映。

随着技术的不断进步和经济压力的增加，我们很可能会看到行业逐渐从单一使用大型语言模型过渡到更模块化、异构的系统，其中小语言模型扮演着越来越重要的角色。这种转变不仅可以降低成本，还可以实现更可持续、更民主化的AI部署。

来源：至顶网一点号

标签：模型代理推理 nvidia 语言

本文地址：http://news.43b.com.cn/a/559075.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐