摘要:首先,SLM已经足够强大,能处理AI智能体中大多数重复、专一的任务;其次,它们天生更适合智能体系统的架构,灵活且易集成;最后,从经济角度看,SLM更省钱、更高效,能大幅降低AI运行成本。
英伟达研究院和佐治亚理工大学的研究人员最近发表了一篇论文,抛出了一个非共识的观点:
小语言模型(SLM)才是AI智能体的未来,而不是那些庞大的大型语言模型。
作者核心理由主要是以下三点:
首先,SLM已经足够强大,能处理AI智能体中大多数重复、专一的任务;其次,它们天生更适合智能体系统的架构,灵活且易集成;最后,从经济角度看,SLM更省钱、更高效,能大幅降低AI运行成本。
想象一下,AI智能体系统就像一个虚拟团队,能自动分解任务、调用工具(比如浏览器或代码编辑器),最终解决问题。目前,大多数AI智能体都依赖LLM作为“大脑”,因为LLM聊天能力强、知识广博,能处理各种复杂问题。
论文指出,2024年AI智能体市场已达52亿美元,预计到2034年飙升至2000亿美元,企业中超过一半已经在用。但问题来了:AI智能体的任务往往重复单一,比如“检查邮件”“生成报告”,用LLMs这种“全能选手”来干这些活,就好像用超级计算机玩扫雷,开兰博基尼送披萨——过于浪费资源。
而且不单是浪费,智能体系统任务的特点也使得小模型能更好的适配智能体生态,从而更有可能交付出更符合要求的结果。
因为本质上AI智能体不是聊天机器人,而是“工具箱+大脑”的系统。SLM小巧,训练/微调成本低(几小时GPU就行),易适应新需求(如新法规)。这带来“民主化”,从而能让更多人能开发智能体,减少偏见,促进创新。
作者指出,智能体任务只用LLM的一小部分技能,如格式严格的工具调用。而AI智能体系统天然异构就利于混用模型,主智能体用LLM,子任务用SLM。
而如果大量采用SLM,还能发挥数据收集优势:智能体运行时,自然产生的专精数据,可以用来微调SLM,形成良性循环,从而使得结果越来越好。
01
什么是SLM
论文对SLM给出了一个实用的定义:
SLMs:能装进普通消费电子设备(如手机或笔记本),推理速度快,能实时服务一个用户的智能体请求。目前,10亿参数以下的模型可以算是SLM。而其他更大的模型,通常需要云端服务器支持。
为什么这样定义?SLM像“便携大脑”,适合终端部署;LLM像“宇宙级超级电脑”,但延迟高、成本大。
作者给了一个很极端但是又很有意思的例子做比喻:如果AI无限大,会受光速限制没法实时互动;无限小,又太弱没法做事。人类大脑就是平衡点,SLM就像人类大脑这个平衡点,高效,易于迭代。
作者对比两种类型的智能体结构:
在左侧,一个语言模型与用户聊天并直接触发每个工具,因此整个流程都位于该单个模型中。
在右侧,一个小型控制器程序处理工具调用,让模型专注于对话或特定推理。
这种拆分使得为大多数调用插入小型语言模型变得容易,节省成本,并将大型模型仅保留用于不太常见的开放式问答或者推理步骤。
论文表示,最前沿的小模型如Phi-3和Hymba,在工具使用、常识推理和指令遵循方面,性能足以媲美30B到70B的大模型,但在实际工作流中的计算量却降低了10-30倍。
英伟达还对三款真实世界的AI智能体进行了测试,发现:
MetaGPT:60%的任务可以用SLM取代
Open Operator:40%的任务可以用SLM取代
Cradle(图形界面自动化):70%的任务可以用SLM取代
02
SLM那么好,为什么还要用LLM呢?
论文认为AI智能体没有大规模利用SLM的主要原因还是因为路径依赖。
大量资金(高达570亿美元)被投入了中心化的大模型基础设施,团队倾向于重复使用付费设置,而不是转向更轻的本地选项,短期内难以转变。
行业内对「大即是好」的偏见依然强烈。对小型模型的研究一直在追逐用于大型模型的相同广泛基准,而这些测试都体现不出于小模型在智能体任务上的优秀表现。
SLM几乎没有GPT-4那样的热度,小模型也不像让大模型那样经历了一轮一轮的营销热潮,因此许多构建者从未尝试过更便宜更合理的路线。
对此,论文认为如果研究任务员和智能体搭建者能够做到一下几点,那么将能很好的发挥SLM在智能体方面的潜力。
-收集梳理数据
-针对特定任务微调SLM
-把任务进行聚类并建立SLM的“技能”
03
华人作者介绍
SHIZHE DIAO
根据他领英公开的资料,他先后就读于北京师范大学,香港科技大学,曾经在UIUC做过访问学者。
曾经在字节AI LAB做过实习,2024年加入英伟达担任研究科学家。
Xin Dong
根据他的个人博客,他博士毕业于哈佛大学。曾经在腾讯,Meta等公司有过工作和实习经历。
Yonggan Fu
根据他的领英公开资料,他本科毕业于中国科学技术大学,在莱斯大学和乔治亚理工完成了自己的博士学业。
在Meta和英伟达实习过,现为英伟达研究科学家。
来源:字母榜一点号