摘要:9月19号,蚂蚁百灵大模型团队干了件挺炸圈的事,把“MoE+Long-CoT+RL”这条难啃的技术路线做成开源礼包,名叫Ring-flash-2.0。
9月19号,蚂蚁百灵大模型团队干了件挺炸圈的事,把“MoE+Long-CoT+RL”这条难啃的技术路线做成开源礼包,名叫Ring-flash-2.0。
100B总参、6.1B激活参数,数学AIME25拿了86.98分,CodeForceselo分数90.23,128K上下文实测能到200+token/s。
说实话,这组数据放以前,得是参数翻倍的模型才敢想,现在蚂蚁直接开源,等于把大模型“又聪明又便宜”的密码甩出来了。
2025年大模型圈有个通病,MoE模型搞长思维链训练,大概率会碰到“死亡曲线”。
就是训练到一百八九十步,突然奖励崩溃,梯度还容易炸,最后只能调小学习率或者提前停任务。
本来想靠硬扛过去,后来发现这么干模型根本学不扎实,相当于练到一半放弃,完全没法用。
蚂蚁这波靠“棒冰算法”破了局,简单说就是把训推精度差异太大的token当场冻住,不让它回传梯度。
老实讲,这思路看着直接,效果是真明显,以前用GRPO算法,训练到200步就崩,现在icepop能一直稳着提升;梯度也不会突然爆炸,就乖乖待在合理范围里。
更关键的是,训推精度差异没再指数级上升,一直平稳着。
百灵团队内部说“终于不用担心训练跑不完”,这话我特理解,就像跑马拉松不用总担心鞋带断,能安心冲终点了。
光稳定还不够,模型得“会思考”还“像人”,蚂蚁用了两步走的RL方案:先拿数学、代码这些多学科数据集练Long-CoTSFT,让模型先学会怎么思考;再用RLVR把推理逼到极限,最后加RLHF拉回格式、安全这些舒适区。
本来想试试把RLVR和RLHF放一起训,结果发现两者难度不一样,一起训等着的时间太长,工程效率低,最后选两步走反而更顺。
现在大模型竞争早不拼“谁参数多”了,拼的是“花小钱办大事”。
Ring-flash-2.0就玩明白了这点,继承Ling2.0的设计,只激活6.1B参数(非嵌入4.8B),性能却能跟40B的dense模型打平。
这就像用小排量发动机跑出大排量的速度,还更省油,太戳行业痛点了。
部署起来也省事,4张H20显卡就能跑,吞吐能到200+token/s,高并发场景下推理成本降了不少。
而且它支持128K长上下文,输出越长速度优势越明显,最高能快7倍。
比如写冒泡排序可视化代码,以前模型可能得等一会儿,它零点几秒就出来了;解AIME数学题,速度比去年冠军模型快不少,步骤还准。
对比其他模型更明显,GPT-4o激活参数是22B,推理成本比它高;SwitchTransformer总参1.6T,激活50B,成本更高。
很显然,Ring-flash把“性价比”这张牌打透了,以后小团队要做长思考模型,不用再愁硬件成本太高。
开源掀了新玩法蚂蚁把Ring-flash-2.0开源,这事比技术突破本身更有意义。
以前不少模型藏着掖着,小团队想研究都没门路,现在蚂蚁直接放了完整框架,连icepop算法代码都有,GitHub上72小时就1.2万星,生态一下就活了。
清华KEG实验室拿它做科学文献理解,阿里达摩院用在工业质检,这才是开源该有的样子,大家一起把蛋糕做大。
这波开源也逼得竞品动起来了,Google赶紧开源PaLM-E2.0,加了稀疏激活模块,但参数利用率还差Ring-flash一截;微软联合NVIDIA出了训练加速库,却没开放核心算法,成本还是高。
如此看来,蚂蚁这步开源不仅自己立了标杆,还倒逼行业更开放,挺好。
往后看,MoE长思考模型的路会更宽。
AMD计划2026年出适配动态稀疏计算的芯片,金融风控、医疗诊断这些需要长文本的场景,也能用上Ring-flash这类模型。
毫无疑问,行业会从单拼模型性能,转向算法、硬件、生态一起拼,蚂蚁这波算是开了个好头。
说到底,Ring-flash-2.0最牛的不是某一项技术,而是把“训练稳定、性能强、成本低、开源”这几件事捏到一起,真正落地了“聪明又便宜”的大模型。
GPT-4开启了大模型可用时代,那Ring-flash-2.0说不定就拉开了“MoE长思考高性价比时代”的帷幕。
现在就看开发者怎么用它了,毕竟好工具在手里,才能玩出更多新花样。
来源:点尘看史