蚂蚁团队逆袭,Ring-flash-2.0靠棒冰算法杀出高性价比新赛道

B站影视 内地电影 2025-09-21 13:53 7

摘要:说到大模型,很多人脑海里第一反应都是“算力怪兽”、“土豪拼参数”,可你知道吗,其实在这条道路上,想跑得快、跑得远,光有参数根本不够用。

说到大模型,很多人脑海里第一反应都是“算力怪兽”、“土豪拼参数”,可你知道吗,其实在这条道路上,想跑得快、跑得远,光有参数根本不够用。

尤其是在“思考更深、推理更长”的领域,光靠堆硬件,稳定性和训练效果都卡脖子。

今年9月,蚂蚁百灵团队直接把业界公认的“难啃骨头”——MoE+长思维链+强化学习,做成了开源礼包,带来了Ring-flash-2.0

数据一摆出来,真让人眼前一亮:1000亿总参数,只激活6.1亿,数学AIME25拿下86.98分,CodeForces elo分90.23,128K上下文环境下能跑出200+token每秒。

这些数字可能有点抽象,我们拆开聊——

大模型本来就烧钱,MoE(专家混合)架构的最大好处就是省钱省力。

传统大模型,所有参数都得“上场”——好比一场篮球赛,场上坐着一堆替补,主力、替补都得发工资。

而MoE只让最合适那几位“专家”上场,精力和钱都砸在刀刃上。

Ring-flash-2.0只激活总参数的1/16,性能却能和40B dense模型掰手腕,性价比直接拉满。

高速推理,低成本高能效,支持128K超长上下文
说到大模型落地,速度和成本直接决定能不能用。

Ring-flash-2.0得益于高稀疏、小激活的设计,在4张H20卡上,推理速度就能跑到200+token/秒。

更厉害的是,通过YaRN外推,支持128K长上下文,输出长度越长,加速比越高,最高能到7倍。

这意味着什么?在高并发场景下,比如智能客服、文档问答、代码生成,Ring-flash-2.0不仅推理能力强,推理速度也快,算力成本直线下降。

再说个细节,Ring-flash-2.0的开源地址一应俱全,HuggingFace、ModelScope、GitHub全覆盖,科技圈的朋友想研究、想用都能一键到位。

棒冰算法技术核心,小问题变“大翻盘”
其实,棒冰(icepop)算法的核心,就是解决MoE在RL训练中“训推差异”导致的崩盘。

原理很简单,把那些训练和推理概率差异过大的token“遮蔽”掉,不参与梯度回传,这样训练就不会被极端值拖垮。

这种思路看似朴素,效果却极其显著,训练稳定性和推理精度直接提升。

大模型竞争新拐点:高性价比才是硬道理
过往大模型赛道,拼的是谁的参数多、谁的硬件强。

可如今,谁能在保证推理能力的同时,显著降低成本,谁就能笑到最后。

Ring-flash-2.0用100B总参、6.1B激活、200+token/s速度,把“Long-CoT+RL”做到了可大规模落地,还顺手解决了工程稳定性、推理成本、开源生态痛点。

用业内的话说,GPT-4开启了“大模型可用时代”,而Ring-flash-2.0则正式开启了“MoE长思考高性价比时代”。

当下的AI大模型之争,早已不是谁家“肌肉大”,而是谁能在有限资源下,跑得又快又稳。

蚂蚁百灵团队的Ring-flash-2.0,靠棒冰算法和“两段式”RL,硬生生把一块技术难啃骨头,做成了人人可用的开源大礼包。

未来的AI世界,谁抓得住高性价比,谁就能真正走进千家万户。

来源:3分钟娱记一点号

相关推荐