估值840亿AI实验室再放大招，他们要给大模型戴“紧箍咒”

B站影视电影资讯 2025-09-29 22:01 7

摘要：2025年9月28日这天，OpenAI前CTOMiraMurati创办的ThinkingMachinesLab又搞出了新动静。

2025年9月28日这天，OpenAI前CTOMiraMurati创办的ThinkingMachinesLab又搞出了新动静。

要知道这实验室估值可是840亿，之前刚发过《克服LLM推理中的不确定性》，这次又拿出了第二篇研究，《模块流形》。

搞AI训练的人怕是最有体会，训练大型神经网络就跟走钢丝似的。

得小心翼翼盯着里面的权重、激活值还有梯度这些关键张量，一旦它们变得太大或太小，数值溢出之类的麻烦就来了，训练随时可能卡壳。

这次实验室的新研究，就是想给大模型戴个“紧箍咒”，解决这个头疼问题。

要给大模型搞“维稳”，统一的量级管理是基础。

先说说大家常用的办法，第一层就是稳住激活值。

用LayerNorm技术把每层的输出拉回合适范围，对激活向量做归一化处理。

像GPT-2、LLaMA这些主流大模型，都在用这招，算是行业里的常规操作了。

除了激活值，梯度更新也得管起来。

比如Muon优化器会对更新做谱归一化处理，让每一步更新的幅度都在可控范围内，避免出现梯度爆炸或者消失的情况。

本来想是不是这两层就够了，但后来发现，直接“管住”权重本体才更关键。

研究里提了个新思路，试试归一化权重矩阵。

更重要的是，它把权重张量约束在某个子流形上，还说能顺着这些流形约束去设计优化算法。

如此看来，这思路跟以前比不一样了，以前是参数出了问题再调整，跟“救火”似的；现在是一开始就把参数放在健康区间，相当于“预防”。

很显然，这么做能让训练更稳，还更容易解释，大模型训练起来自然更高效。

我觉得这步走得挺聪明，毕竟提前规避问题，比事后补救省事多了。

讲完量级管理，就得说说流形优化器了，这玩意儿可是“紧箍咒”里的关键部件。

先搞懂两个基础概念，流形和切空间。

流形这东西，局部看起来是平坦的曲面，要是放大到足够程度，就跟普通平面没区别了。

而流形上某点附近的局部平坦空间，就叫“切空间”。

有张图，画的三维球面或者更高维度的超球面，红色部分就是某点的切平面，这么一想就好理解多了。

一开始，有人想让权重“待在”指定流形里，用普通优化器更新后，再把权重投影回流形。

但后来发现这办法有问题，要是优化步骤偏离流形太多，再强行投影回来，名义学习率就和参数在流形上的实际位移对不上了。

搞不清实际步长能带来什么效果，这训练起来心里就没底，显然并非明智之举。

那该怎么解决呢？答案是直接在切空间里优化。

这样每一步都能沿着流形“表面”走，学习率就能更好地对应“实际位移”。

常用的距离度量是欧几里得距离，当然也能选别的方式。

很显然，距离度量选得不一样，最优优化步骤的方向也会变。

而且咱们不一定非要严格跟着梯度方向移动，梯度就是损失函数对权重的偏导数，原文里用粉色箭头标出来了，这就给优化留了更多灵活空间。

要把这个过程用数学表达出来，就得把它当成带约束的优化问题。

比如用搭配欧几里得范数的超球面举例，用g表示梯度，w表示超球面上的当前点，a表示更新方向，η表示学习率。

求解的时候得用拉格朗日乘数法，λ和μ就是拉格朗日乘子。

对拉格朗日函数求导并令其为零，再结合约束条件，就能算出最优更新方向。

简单说，最优更新就是先从梯度里减去和w同方向的径向分量，把梯度投影到切空间上，再归一化，最后乘以学习率。

这个微小的修正过程叫“回缩映射”，还有张图展示了这个过程。

而完整的一阶流形优化算法分三步：先找到梯度方向上单位长度的切向量；用学习率乘以这个方向，从当前权重里减去；最后通过回缩映射把更新后的权重拉回流形上。

弄明白了流形优化器，再看ManifoldMuon和模块流形理论，就好理解多了。

毕竟大模型不是一层结构，层与层之间得配合好才行。

Transformer里的典型权重矩阵W，就是个“向量变换器”，把输入向量x转换成输出向量y=Wx。

咱们希望这个矩阵作用合理，既别让输出值太大或太小，也别在更新权重时让输出向量剧烈变化，或者几乎没变化。

怎么判断矩阵作用合不合理呢？用奇异值分解（SVD）就行，原文里也有张图展示这个过程，它能清楚显示矩阵怎么沿着不同轴拉伸输入向量。

研究里希望矩阵的“拉伸效应”接近1，所以选了所有奇异值均为1的矩阵流形，这在数学上叫Stiefel流形。

选好流形还不够，还得选合适的距离函数。

为了限制权重更新对输入向量的最大拉伸作用，谱范数是个不错的选择，它能度量矩阵的最大奇异值。

虽然它只约束了最大效应，但因为优化器会把这个上限用满，所以也能间接防止最小效应过小。

就是这个想法，促成了Muon优化器的提出，再结合Stiefel流形约束，就形成了“manifoldMuon”问题。

研究里还有个关键发现，这个问题是凸优化问题，能用对偶上升法求解，还推导出了对偶函数的梯度。

而且有个小实验验证了算法的可行性，原文里也放了实验设置和结果图，这就说明这方法不是纸上谈兵，是能落地的。

更何况大模型是多层组合起来的，层与层之间的交互不能忽视，优化策略也得跟着调整。

这时候模块流形理论就派上用场了，它能把之前的推导逻辑推广到整个神经网络。

核心思想是构建抽象机制，指导怎么在各层之间合理分配学习率。

而分配学习率或者对单个层缩放，都得基于对网络输出对权重的Lipschitz敏感性的理解。

搭建网络时追踪这种敏感性，流形约束又能帮咱们更精准地把握它，这样整个大模型训练就能更协调、更稳定。

毫无疑问，ThinkingMachinesLab的这个研究，从量级管理到流形优化器，再到ManifoldMuon和模块流形理论，一步步给大模型戴上了“紧箍咒”。

它解决了大模型训练中参数易失控、训练不稳定的老问题，把被动“救火”变成了主动“预防”。

要是这个技术能广泛应用，以后训练千亿甚至万亿参数的大模型，可能就不会再像以前那么费劲了，AI技术的发展速度说不定还能再提一提。

来源：乐娱侃事

标签：模型实验室估值紧箍咒流形

本文地址：http://news.43b.com.cn/a/1430437.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!