MoE架构救DLM？LLaDA-MoE与RND1，如何让语言模型更高效？

摘要：话说最近AI圈又有大新闻了！俩扩散语言模型（DLM）突然火了，一个是中国人民大学和蚂蚁集团鼓捣出的LLaDA-MoE，另一个是RadicalNumerics家的RND1。

话说最近AI圈又有大新闻了！俩扩散语言模型（DLM）突然火了，一个是中国人民大学和蚂蚁集团鼓捣出的LLaDA-MoE，另一个是RadicalNumerics家的RND1。

这俩模型可有点意思，一个靠"偷工减料"省算力，一个拿旧模型改出新花样，直接把DLM这事儿整出了新高度。

先说说LLaDA-MoE这伙计，它总共有70亿参数，但真正干活时只激活14亿，相当于别人全家上阵，它挑俩最能干的专家干活。

这种稀疏MoE架构就像开了个专家事务所，每个问题来都只派最合适的俩专家处理，效率贼高。

训练这模型也挺讲究，人家累计喂了20万亿token，光预训练就分两阶段各10万亿，退火阶段还加了1000亿数学和代码样本。

结果咋样？在MMLU测试里从64.59飙到67.18，GSM8K更是从66.41冲到82.41，直接把同规模的DLM甩在身后，甚至跟Qwen2.5-3B-Instruct打得有来有回。

再看RND1，这哥们儿更猛，300亿参数的大家伙，还是从AR模型Qwen3-30BA3B改过来的。

怎么改？用了个叫"简单持续预训练（SCP）"的招儿，直接把AR模型的单向掩码换成双向的，就像给单行道改成双向车道。

关键是人家没把旧模型的知识扔了，给注意力层用高学习率适应新规则，MLP和嵌入层用低学习率保老本，妥妥的"旧瓶装新酒"操作。

训练完效果也不含糊：MMLU拿了69.6，GSM8K77.2，MBPP67.5，把Dream-7B、LLaDA-8B这些开源DLM都超过去了。

而且人家直接开源了模型、代码和训练配方，简直是给行业送福利。

要说这俩模型为啥能成，关键在俩技术突破。

先说MoE架构，这东西就像给模型搞了个"分工责任制"。

以前模型是密集型干活，每个参数都得累死累活；现在换成稀疏激活，每个token来只找俩专家处理，计算量直接降下来。

就像公司里把全职工换成兼职专家，活儿不少干，成本还低。

LLaDA-MoE为了让这分工更合理，还整了俩损失函数：Z-Loss控制路由器别乱选专家，LBLoss保证每个专家工作量差不多。

就像部门经理既要挑对人，又得防止有人摸鱼有人累死，挺讲究。

再说RND1的A2D转换，这招有点像给旧电脑升级硬件。

以前从AR转DLM得走复杂流程，又是退火又是嫁接，麻烦得很。

现在SCP方法直接换掩码+持续训练，简单粗暴还有效。

尤其是层级学习率这事儿，抓住了Transformer的"命门"，知道事实知识都在FFN/MLP层，那就给这些层低学习率，保住老本；注意力层高学习率，学新技能，一举两得。

还有个有意思的发现：DLM训练时大BatchSize效果更好。

因为AR模型每个token都算损失，DLM只算一半掩码的，学习信号弱。

所以RND1试了下，把BatchSize干到800万token，损失还在降，这对大规模训练可是个好消息，相当于发现了"高效刷题法"。

这俩模型一出来，DLM的路子就更清晰了。

LLaDA-MoE证明了参数效率这条路能走通，小激活参也能有高性能；RND1则说明不用一切推倒重来，基于现有AR模型改造是条捷径。

现在开源生态里这俩模型一放出来，中小团队也能玩DLM了，说不定很快就有更多好玩的应用冒出来。

看着DLM从理论走向实用，就像看着当年智能手机慢慢干掉功能机。

以后语言模型并行生成、高效处理的优势一发挥，代码生成、多模态任务这些场景怕是要迎来大变化。

至于这俩模型谁更厉害，现在下结论还早，但它们趟出来的路，肯定能让DLM走得更快更远。

来源：法之生活一点号

标签：模型 moe dlm moe架构 rnd1

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!