MoE架构救DLM?LLaDA-MoE与RND1,如何让语言模型更高效?

B站影视 欧美电影 2025-10-15 17:13 1

摘要:话说最近AI圈又有大新闻了!俩扩散语言模型(DLM)突然火了,一个是中国人民大学和蚂蚁集团鼓捣出的LLaDA-MoE,另一个是RadicalNumerics家的RND1。

话说最近AI圈又有大新闻了!俩扩散语言模型(DLM)突然火了,一个是中国人民大学和蚂蚁集团鼓捣出的LLaDA-MoE,另一个是RadicalNumerics家的RND1。

这俩模型可有点意思,一个靠"偷工减料"省算力,一个拿旧模型改出新花样,直接把DLM这事儿整出了新高度。

先说说LLaDA-MoE这伙计,它总共有70亿参数,但真正干活时只激活14亿,相当于别人全家上阵,它挑俩最能干的专家干活。

这种稀疏MoE架构就像开了个专家事务所,每个问题来都只派最合适的俩专家处理,效率贼高。

训练这模型也挺讲究,人家累计喂了20万亿token,光预训练就分两阶段各10万亿,退火阶段还加了1000亿数学和代码样本。

结果咋样?在MMLU测试里从64.59飙到67.18,GSM8K更是从66.41冲到82.41,直接把同规模的DLM甩在身后,甚至跟Qwen2.5-3B-Instruct打得有来有回。

再看RND1,这哥们儿更猛,300亿参数的大家伙,还是从AR模型Qwen3-30BA3B改过来的。

怎么改?用了个叫"简单持续预训练(SCP)"的招儿,直接把AR模型的单向掩码换成双向的,就像给单行道改成双向车道。

关键是人家没把旧模型的知识扔了,给注意力层用高学习率适应新规则,MLP和嵌入层用低学习率保老本,妥妥的"旧瓶装新酒"操作。

训练完效果也不含糊:MMLU拿了69.6,GSM8K77.2,MBPP67.5,把Dream-7B、LLaDA-8B这些开源DLM都超过去了。

而且人家直接开源了模型、代码和训练配方,简直是给行业送福利。

要说这俩模型为啥能成,关键在俩技术突破。

先说MoE架构,这东西就像给模型搞了个"分工责任制"。

以前模型是密集型干活,每个参数都得累死累活;现在换成稀疏激活,每个token来只找俩专家处理,计算量直接降下来。

就像公司里把全职工换成兼职专家,活儿不少干,成本还低。

LLaDA-MoE为了让这分工更合理,还整了俩损失函数:Z-Loss控制路由器别乱选专家,LBLoss保证每个专家工作量差不多。

就像部门经理既要挑对人,又得防止有人摸鱼有人累死,挺讲究。

再说RND1的A2D转换,这招有点像给旧电脑升级硬件。

以前从AR转DLM得走复杂流程,又是退火又是嫁接,麻烦得很。

现在SCP方法直接换掩码+持续训练,简单粗暴还有效。

尤其是层级学习率这事儿,抓住了Transformer的"命门",知道事实知识都在FFN/MLP层,那就给这些层低学习率,保住老本;注意力层高学习率,学新技能,一举两得。

还有个有意思的发现:DLM训练时大BatchSize效果更好。

因为AR模型每个token都算损失,DLM只算一半掩码的,学习信号弱。

所以RND1试了下,把BatchSize干到800万token,损失还在降,这对大规模训练可是个好消息,相当于发现了"高效刷题法"。

这俩模型一出来,DLM的路子就更清晰了。

LLaDA-MoE证明了参数效率这条路能走通,小激活参也能有高性能;RND1则说明不用一切推倒重来,基于现有AR模型改造是条捷径。

现在开源生态里这俩模型一放出来,中小团队也能玩DLM了,说不定很快就有更多好玩的应用冒出来。

看着DLM从理论走向实用,就像看着当年智能手机慢慢干掉功能机。

以后语言模型并行生成、高效处理的优势一发挥,代码生成、多模态任务这些场景怕是要迎来大变化。

至于这俩模型谁更厉害,现在下结论还早,但它们趟出来的路,肯定能让DLM走得更快更远。

来源:法之生活一点号

相关推荐