摘要:在人工智能领域,大语言模型(LLM)正以前所未有的速度蓬勃发展。其中,基于混合专家架构的语言模型,为 DeepSeek 系列、Qwen 系列等模型,带来了出色的性能表现。然而,MoE 模型的训练通常依赖于高性能计算资源,高昂的训练成本成为了目前行业普及的主要瓶
在人工智能领域,大语言模型(LLM)正以前所未有的速度蓬勃发展。其中,基于混合专家架构的语言模型,为 DeepSeek 系列、Qwen 系列等模型,带来了出色的性能表现。然而,MoE 模型的训练通常依赖于高性能计算资源,高昂的训练成本成为了目前行业普及的主要瓶颈。
3月初,蚂蚁集团Ling团队发表了《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》的论文报告,开源了两款不同规模的 MoE (混合专家)大语言模型——百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus),并提出一种创新的训练方法:在低配置 GPU 上高效训练 3000 亿参数的 MoE 模型,将成本降低了20%。(论文地址:https://arxiv.org/pdf/2503.05139)。
这篇报告再一次引起科技圈关于大模型成本控制的讨论,引发了媒体的关注和报道。那么,蚂蚁Ling团队是如何通过异构算力实现大模型高效训练,有哪些经验心得?除了报告中公布的细节,3月27日,蚂蚁Ling团队人员还在知乎发表文章,就开发者感兴趣的成本计算、优化经验等做了分享,回答了几个印象深刻的bitter lesson。
如何实现低成本高效训练?
据报告介绍,蚂蚁集团开源的Ling-Lite和Ling-Plus两款MoE模型,分别拥有168亿和2900亿参数,其激活参数分别为27.5亿和288亿,性能均达到行业领先水平。实验表明,即使在使用国产GPU的低性能设备上,这两款模型也能实现高效训练,其性能与完全使用高端芯片、同规模的稠密模型及MoE模型相当。那么,究竟是如何做到的?
蚂蚁集团 Ling 团队提出了三个创新方法:模型架构和训练过程的优化、训练异常处理的细化,和模型评估效率的提升。
模型架构上,Ling团队进行了大胆创新,采用细粒度专家与共享专家的设计。在增加专家数量的同时减少每个专家的中间层维度,保持总计算量不变,提高专家专业化程度。同时还引入共享专家,避免个别专家因能力受限而影响整体性能,确保模型在专业能力和通用能力上达到平衡。
在训练过程中,采用先升温后稳定衰减的学习率调度策略,结合批量大小预热策略,从初始批量大小逐渐增加到最大值,有效提升了训练效率。针对训练过程中可能出现的损失尖峰问题,实施了跳过和重试机制,最大程度减轻损失尖峰对模型训练的影响。
此外,为了降低对高端硬件的依赖,蚂蚁Ling团队借助 DLRover,实现计算工作负载的优化和无缝迁移;集成 XPUTimer 轻量级分析工具,进行实时性能监控和故障诊断;采用 EDiT 异步训练方法,有效缓解大规模异构分布式训练环境中的性能下降问题。开发了 PCache 分布式存储系统和 Babel 跨集群同步机制,优化 I/O 性能和数据同步,确保在跨集群环境中高效可靠地访问多样化的数据集。
这些创新策略带来了显著的成本效益。报告提到,在五种不同硬件配置下,Ling 团队对9万亿个 token 进行 Ling-Plus 预训练。结果显示,使用高性能硬件配置训练1万亿 token 的预训练成本约635万元人民币,而采用蚂蚁优化方法后,低规格硬件训练成本降至 508 万元左右,降低了20%,且性能与阿里通义 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相当。
蚂蚁Ling团队在知乎上的文章表示:“我们在成本计算上使用了学术界比较通行的计算方法,根据在不同平台上对 Ling-Plus 的真实训练记录,我们可以观察到某个平台在 K 张加速卡上持续一段时间(比如一周)的 token 数,再根据技术报告表 1 上提到的不同加速卡的单位时间成本,就可以很简单地计算出对应平台上训练单位 token 量(报告里以 1 万亿 token 为单位)的成本。
表1:AI加速器特性与单位成本(估算)
Ling团队:中国大模型研发面临更多加速卡挑战
此前,不少中国大模型公司在成本优化、性能提升方面都有了卓越的表现。DeepSeek通过算法和工程优化,使用性能较低的英伟达H800芯片训练出了性能与顶尖模型相当的V3与R1模型,让更多的企业和研究机构看到了成本降低、效率提高的可能性。
豆包大模型研发的稀疏模型架构UltraMem,有效地解决了目前主流的MoE架构和PKM架构所存在的局限性。实验结果表明,训练规模达2000 万value的UltraMem模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模value或expert开辟了新路径。
Ling团队提到,和国外大模型公司相比,中国大模型团队面临更多的异构加速卡挑战。“我们并不是第一家面对异构问题的公司,比如智源研究院就发起了 FlagScale 项目,研发面向异构加速卡的训练框架。有了开源社区,我们可以利用同行们的前期探索作为工作的基础。”
据CSDN了解,此前科大讯飞就发布了基于全国产化算力平台训练的大模型讯飞星火V3.5。通过算子融合、混合并行策略和通信计算并行优化等一系列创新,科大讯飞实现了单卡静态内存占用缩减至双机部署的1/4,效率提升75%,专家计算密度增加4倍,推理吞吐提升3.2倍,端到端时延降低50%等一系列成果。
此次蚂蚁在基础设施、训练架构、推理等基本功层面的创新之举,为降低训练MoE模型提供了另一种可能,即并不是只有高配置的芯片才能训练MoE模型。结合异构芯片的优化方案,使得中小企业和研究机构能以更低成本开发大模型。
报告中,蚂蚁团队不仅开源了两个高性能的MoE模型,还在项目中开发了MoE训练工具包,包括细粒度专家路由、DLRover框架、XPUTimer剖析工具、PCache系统、Babel中间件、Flood推理框架,为 AI 普惠化提供了一个新的路径。其中,DLRover作为开源软件,降低了在混合基础设施上训练大型模型的入门门槛,通过集成工具(如XPUTimer)简化了故障诊断。目前,DLRover已在Github开源,拥有1.4k star。这种开源的模式或将激发开发者的创造力,加速大型语言模型领域的创新。
如果说科大讯飞“星火”验证了国产算力的可行性,那么蚂蚁“Ling系列”则进一步证明其规模化和经济性,外界对此次蚂蚁的开源充满期待。外媒报道中提到:“如果蚂蚁的技术成果得到验证,可能会大幅削减推理和AI服务的成本,中国人工智能发展又将向前迈进一步。”
较早吃螃蟹的人,收获更多“苦涩教训”
在报告中,蚂蚁总结了训练过程中经常遇到的问题,并提供了相应的解决策略。目前虽然实现了功能性解决方案,但仍面临着亟需解决的问题。
训练稳定性是一个关键问题,其中损失尖刺和专家负载不均衡等现象尤为突出。专家负载不均衡会破坏路由平衡,导致模型不稳定。为了解决这些问题,蚂蚁采取如重试和跳过机制、使用 HeadNorm 和 zloss 等技术来稳定训练过程,但仍需要进一步优化,以确保模型训练的可靠性。
另一个持续的挑战是在不同硬件类型之间迁移时的跨平台训练一致性,在将训练工作流迁移到不同硬件环境时,由于不同硬件间存在细微的精度误差,这些误差在训练过程中会逐渐累积,最终导致模型结果出现差异,影响模型的可复现性。
Ling团队在知乎上分享了他们在这项工作中走过的弯路。比如他们“‘很傻很天真’地本着技术问题应该知其然又知其所以然的信念,定下了一个非常严格标准,基础算子(除符合预期的精度误差)完全对齐 + 分布式训练框架前后向计算完全对齐 + 大规模训练长跑 loss 差异低于 0.1%,当然这也换来了无数个通宵 debug 的难忘体验。”在后来的优化工作中,Ling团队发现,通过设计一个合理的外推拟合方法,在不进行真实训练的情况下,一个尺寸较大(比如 20B、80B)的模型在正式训练较长时间(比如 2T token)后的 loss,可以被一系列 1B 以下的小尺寸模型的训练外推预测,其预测误差低于 0.5%。这样看来,跨平台训练的 loss 差异低于 0.1% 其实是一个合理的要求。后续,他们计划通过开源社区持续优化工具链,与硬件厂商共建标准化接口,并计划年内推出面向代码生成的专用版本。
Ling团队还提到,“Ling 模型的发布只是我们工作的一个里程碑,后续我们还会进一步改进自己的工作。每个 AI 研发工程师都相信 AGI 必将到来,并且一定是普惠大众的。”
CSDN了解到,一直以来,蚂蚁集团在大模型研发上主张“可靠性、经济性、易用性”,并在训练成本上设定了目标,希望“不依赖顶级GPU而实现模型规模化”。
来源:CSDN一点号