摘要:随着大模型技术的飞速发展和企业智能化转型需求的不断攀升,大模型落地应用关注焦点正从训练环节转向推理环节。在此过程中,行业需求已从构建功能全面、用户友好且灵活的推理平台,逐步深化到解决实际落地中由“效果-性能-成本”构成的不可能三角难题[1]。其中,效果要求体现
随着大模型技术的飞速发展和企业智能化转型需求的不断攀升,大模型落地应用关注焦点正从训练环节转向推理环节。在此过程中,行业需求已从构建功能全面、用户友好且灵活的推理平台,逐步深化到解决实际落地中由“效果-性能-成本”构成的不可能三角难题[1]。其中,效果要求体现在模型服务的准确性与场景覆盖的全面性,性能要求体现在响应时延、系统吞吐、服务稳定性,成本要求体现在算力成本、适配成本等综合开销。推理优化技术作为破解不可能三角难题的核心抓手,其重要价值正在大模型规模化应用中愈发凸显。
挑战——平衡算力与成本、适配多样化场景
大模型产业化落地面临成本控制与场景适配双重挑战。一方面,高质量算力需求与成本约束的博弈持续深化。大模型沿着Scaling Law路径不断发展,模型参数持续增加[2],高质量大模型服务离不开高显存、高带宽、高性能的算力支持。然而单纯依赖硬件性能、硬件堆叠,不仅加剧产业落地成本压力,更难以形成可持续的商业闭环。如何在有限算力条件下进一步提升性能并降低成本,仍是长久议题。另一方面,激增的推理需求促使了对多样场景下差异化性能需求的关注。智能客服、对话系统等场景需即时反馈,对时延要求严格;视频生成、训练数据集生成等场景需批量输出,对吞吐率有较高需求;RAG、Agent等服务形式的发展,对长上下文处理能力提出更高要求。如何在差异场景下实现针对性优化、提升服务质量,也是当前大模型落地的重点话题。推理优化不仅关注性能提升与成本控制,还关注结合场景特点的优化改进,以更好地服务于实际业务需求。近日,英伟达CEO黄仁勋、AMD CEO苏姿丰均强调了推理优化的重要性,在推理需求激增、推理模型(Reasoning Models)快速占领市场的当下,该技术的成熟度将成为重塑行业竞争格局的关键要素。
关键技术——推理优化围绕模型架构与计算架构的技术迭出
(一)模型架构层面:基于模型压缩、MoE结构等技术,优化模型自身推理性能
在大模型推理过程中,模型参数、KV缓存(KVCache)及运行过程数据会大量消耗显存资源,其中模型参数和KVCache为主要占比。当前针对推理阶段的模型优化,主要围绕模型结构设计与KVCache优化展开,包括服务运行前的参数压缩、网络结构精简等,以及服务运行时的缓存策略,以实现显存占用、推理效率、推理精度的平衡。例如,轻量化技术如剪枝、量化,通过去除冗余结构或采用低比特表示来压缩模型大小,可显著降低对存储和计算资源的需求,当前可基本实现无损压缩。多头潜在注意力机制(Multi-Head Latent Attention,MLA)通过将键值向量压缩至低秩空间,将推理时对KVCache的显存需求降到传统机制的4%~13%[3],具备更好的长上下文处理和快速响应能力。稀疏化MoE模型架构通过专家网络和门控机制,可动态选择激活的专家,减少不必要的计算,显著降低计算成本。如DeepSeek-V3模型在推理过程中仅需激活5.5%参数(37B/671B)即可达到SOTA效果[4]。
(二)计算架构层面:通过分布式架构设计、调度策略优化,大幅提升推理系统性能上限
架构方面,预填充-解码(Prefill-Decode, PD)分离式推理架构已成为业界主流优化方案。大模型推理一般由预填充(Prefill)和解码(Decode)两阶段构成,其中预填充阶段是计算密集型(compute-bound)对算力需求高,容易迅速使GPU达到饱和;解码阶段是存储密集型(memory-bound)对显存需求高,在大批量(batch size)请求下才可充分利用计算资源,同时受到带宽限制[5]。传统方式通常直接将推理服务部署到集群中,使得PD两阶段在同一节点上执行,引发两阶段资源争夺、并行策略互相掣肘难以优化[5][6],进一步导致资源利用率低、服务性能差、系统构建成本高等问题[7]。PD分离将预填充与解码阶段分开部署,不同阶段依据各自特性选用最优硬件资源,可成倍优化整体推理系统性能与成本。调度方面,通过精细化、智能化资源调度和任务调度,可帮助提升推理系统在多样化服务场景的性能上限。分布式调度通过实时任务监控、负载动态处理、弹性扩缩容等技术,实现负载均衡[8],有效应对低时延、高并发、流量波动、高频请求、长文本处理等多样化业务场景,确保系统在不同应用环境下能够保持稳定高效运行。
产业落地——推理系统呈现单点加速与全局协同优化并行趋势
(一)单点优化:聚焦模型特点与系统的衔接,持续完善推理引擎的功能与性能
一是通用推理引擎呈现从多点爆发到逐渐收敛趋势。从前期HuggingFace TGI、DeepSpeed-FastGen、TensorRT-LLM等,逐渐收敛到推理优化特性丰富、功能更新迅速、二次开发支持性好、多硬件支持、推理性能卓越的vLLM。二是逐渐衍生出一系列结合推理服务特点的新引擎。LMDeploy、SGLang等对多模态、长文本支持友好的推理引擎陆续推出,尤其自DeepSeek-V2开始SGLang与DeepSeek深度整合,产业界对SGLang的关注迅速提升。三是随着MoE模型架构逐渐成为主流趋势,主流大模型框架如vLLM、DeepSpeed[9]等均强化了对MoE特性的支持,同时产业界也推出了一批聚焦MoE训推的AI框架,如清华的KTransformers等。此外,DeepSeek也推出了为MoE架构中专家并行(EP)定向优化的DeepEP通信库[10]。
(二)协同优化:“模型-架构-场景”深度耦合的优化范式成为主流,支撑人工智能平台性能提升
一方面,随着PD分离式推理架构逐渐成熟,场景落地显著加速。2024年陆续推出了DistServe(北大&USCD)、Splitwise(微软)、TetriInfer(华为云)和MemServe(华为云)等PD分离式推理架构方案[11]。2025年初,月之暗面与清华联合阿里云、华为存储、面壁智能、趋境科技等共同发布的Mooncake开源项目是业界大规模落地PD分离案例。该方案通过构建以KVCache为中心的P-D分离调度集群,实现了有效吞吐平均提升75%,特定场景吞吐提升5.25倍,并承接了kimi线上80%流量[12]。DeepSeek部署推理方案也采用了PD分离架构,其在两阶段增加了高负载专家分发、动态冗余专家激活策略[13],可进一步结合MoE模型架构优化计算资源利用。英伟达近期推出的Dynamo分布式推理加速项目,综合了vLLM、SGLang、DistServe、Mooncake等基础,基于PD分离架构基础上,通过精细化KVCache的分布式路由管理,实现系统性能提升[14]。
另一方面,聚焦场景特点、系统架构的精细化调度技术不断发展,提升推理系统与差异化场景适配度。XXL-JOB作为广泛应用于企业级应用中的分布式任务调度平台,解决了在分布式系统中任务调度、定时执行、任务分片、失败重试、任务依赖等问题。阿里云的分布式调度解决方案SchedulerX能够支持秒级别的精确调度周期,为用户提供最小到1秒的任务调度频率,满足了金融、电信等对时间敏感行业的需求[15]。阿里云Llumnix全局调度器引入了运行时请求重调度能力,支持在多个实例间动态分配请求,可应对请求的异构性和不可预测性,实现多种调度场景统一化,在真实流量场景下,尾部延迟降低10倍,在相似尾部延迟的情况下成本节约高达36% [16]。对于分布式场景而言,精细化调度可进一步提升优化上限。但整体而言,目前主流调度工具仍缺乏结合大模型及推理场景的深度优化。
结束语
未来,服务效果、加速效果等指标作为技术、产品能力的显性标尺,可客观呈现大模型推理平台当前的能力水位,是推理优化效果的直观参照。另一方面,在时延、精度、成本、资源等多方约束条件下,识别潜在的性能提升空间、确定可优化的具体维度、制定有效的提升策略,将是推理优化路径演进过程中需要解决的核心问题。
参考资料
[1]《GenAI技术落地白皮书》阿里云
[2] 中金 | AI进化论(1):DeepSeek推动“大模型平权”,是训练算力的拐点还是黑洞?https://mp.weixin.qq.com/s/c0cwxICVjk-ee7ZFKocGQA
[3] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model https://arxiv.org/pdf/2405.04434
[4] DeepSeek-V3 Technical Report https://arxiv.org/pdf/2412.19437
[5] 揭秘老黄演讲中关键技术:PD分离!UCSD华人团队力作,LLM吞吐量跃升4倍 https://mp.weixin.qq.com/s/kdxJng0X3RT2UU8EnuxeSw
[6] Throughput is Not All You Need: Maximizing Goodput in LLM Serving using Prefill-Decode Disaggregation https://hao-ai-lab.github.io/blogs/distserve/
[7] 中金 | AI十年展望(二十):细数2024大模型底层变化,推理优化、工程为王 https://mp.weixin.qq.com/s/tY3pxGpg-WK70ySOgkkiRQ
[8] Mooncake 分离式推理架构创新与实践 https://www.infoq.cn/article/f2Lp0tlCuYvGJ65kXW4B
[9] Getting Started with DeepSpeed-MoE for Inferencing Large-Scale MoE Models https://www.deepspeed.ai/tutorials/mixture-of-experts-inference/
[10] DeepEP https://github.com/deepseek-ai/DeepEP
[11]大模型推理分离架构五虎上将 https://mp.weixin.qq.com/s/g7lq4IcJ4-etkh9XV8Giig
[12] Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving https://arxiv.org/pdf/2407.00079
[14] Dynamo项目解读,NVIDIA官方的分布式大型语言模型(LLM)推理加速框架https://mp.weixin.qq.com/s/t9rm_rG2NwXaZLe_SF5_hg
[15] 大规模分布式应用任务调度解决方案 https://www.aliyun.com/solution/middleware/lsajs
[16] Llumnix: Dynamic Scheduling for Large Language Model Serving https://arxiv.org/pdf/2406.03243
作者:中国信息通信研究院人工智能研究所 宇文梦柯 董昊 曹峰
来源:飞象网CCTIME