开源赛道太挤了!月之暗面开源新版Muon优化器
上次是论文,两家几乎前后脚放出改进版的注意力机制,可参考《撞车 DeepSeek NSA,Kimi 杨植麟署名的新注意力架构 MoBA 发布,代码也公开》、《刚刚!DeepSeek 梁文锋亲自挂名,公开新注意力架构 NSA》。
上次是论文,两家几乎前后脚放出改进版的注意力机制,可参考《撞车 DeepSeek NSA,Kimi 杨植麟署名的新注意力架构 MoBA 发布,代码也公开》、《刚刚!DeepSeek 梁文锋亲自挂名,公开新注意力架构 NSA》。