摘要:蚂蚁开源团队出了个叫Ring-1T的模型,直接在2025年AIME测试里拿了93.4分,这个成绩快赶上人类顶尖选手了。
蚂蚁开源团队出了个叫Ring-1T的模型,直接在2025年AIME测试里拿了93.4分,这个成绩快赶上人类顶尖选手了。
之前大家总在问AI能不能真“动脑子”,现在这个模型算是给了个实打实的答案。
本来想只说这个成绩多厉害,但后来发现它不止数学行。
在HMMT-2025测试里,它拿了86.72分,IMO-2025模拟评测还到了银牌水平,这说明它不光能算题,还能做那种需要多步推理、甚至有点创造性的证明题。
编程方面更不含糊,Codeforces平台测试拿了2088分,这可是人类高水平程序员的区间,写出来的代码又高效又能直接用。
就连通用智能测试ARC-AGI-v1,它也拿了55.94分,比之前的开源模型强了不少。
之前的开源模型大多是靠海量数据“记答案”,遇到复杂点的推理题就容易翻车。
但Ring-1T不一样,它是靠强化学习自己“琢磨”思路,错了还能调整,慢慢形成了稳定的推理模式。
对比之前那些百亿、千亿参数的开源模型,比如Llama370B、Mistral8x22B,Ring-1T算是把开源模型的性能上限给刷新了。
更难得的是,它在复杂任务里不会突然“掉链子”,性能特别稳,现在已经成了新的开源思考型模型基准。
能有这成绩,全靠三个关键技术:IcePop、C3PO++和ASystem。
这三个技术就像三角架,少一个都撑不起这么好的表现。
模型的训练过程也挺讲究,分了三步,先做监督微调打基础,后面两步推理强化学习和通用强化学习才是关键。
训练时用了AdamW优化器,参数都卡得很死,β₁设0.9,β₂设0.999,权重衰减0.01,连MoE路由器的偏置项都固定住了。
推理的时候也没乱调,KL系数设0,采样温度设1.0,就是为了避免训练和推理“两张皮”。
IcePop这技术主要是让训练更稳,它会筛选训练样本,只让那些概率比值在0.5到5.0之间的样本参与优化,遇到那些波动大的异常样本,就削弱它们的影响。
本来研究人员还试了别的参数范围,最后发现默认的0.5和5.0最平衡,既不会让模型太死板,又能保证稳定。
C3PO++则是负责“提速”的,它给每个样本设了token预算,生成的token数到了上限就立刻更新,还分了推理池和训练池,一边生成样本一边训练,两边不耽误。
遇到特别长的样本,它还会设个保留期,超时没完成就清掉,没写完的下次接着来。
这两个算法的配合,怕是很多同行都没想到能这么丝滑。
光有算法还不够,万亿参数的模型得有能扛住的系统。
ASystem就是专门为这个设计的,它用了SingleController+SPMD的并行架构,一个控制器管着成千上万的计算节点,大家同步干活效率特别高。
里面四个模块各有分工,HybridRuntime管训练和推理的统一执行,AMem负责省显存、快传输,AState能在10秒内同步万亿级参数,ASandbox还能隔离着跑推理任务,安全又高效。
对比之前的Megatron-LM框架,ASystem的故障恢复能力强多了,就算有节点出问题,整体训练也不会停。
现在开源模型总算能在高层次智能上跟闭源模型掰掰手腕了,2025年Meta出Llama4的时候,就借鉴了这种“强化学习+分布式架构”的思路,谷歌DeepMind开源的GeminiNano2也在往轻量化推理上靠。
不过问题也存在,这模型训练成本太高,普通机构根本玩不起,而且遇到超复杂的科学计算,长序列推理还有提升空间。
Ring-1T不光是拿了个高分,更重要的是它给开源AI指了条新路子。
以前大家总觉得开源模型只能跟在闭源后面跑,现在看来,只要技术找对了方向,开源模型也能当“引领者”。
希望以后能有更多企业和机构参与进来,把开源AI的门槛降下来,让这种“会思考”的模型能用到更多地方。
来源:史观观
