摘要:2025年9月28日这天,OpenAI前CTOMiraMurati创办的ThinkingMachinesLab又搞出了新动静。
2025年9月28日这天,OpenAI前CTOMiraMurati创办的ThinkingMachinesLab又搞出了新动静。
要知道这实验室估值可是840亿,之前刚发过《克服LLM推理中的不确定性》,这次又拿出了第二篇研究,《模块流形》。
搞AI训练的人怕是最有体会,训练大型神经网络就跟走钢丝似的。
得小心翼翼盯着里面的权重、激活值还有梯度这些关键张量,一旦它们变得太大或太小,数值溢出之类的麻烦就来了,训练随时可能卡壳。
这次实验室的新研究,就是想给大模型戴个“紧箍咒”,解决这个头疼问题。
要给大模型搞“维稳”,统一的量级管理是基础。
先说说大家常用的办法,第一层就是稳住激活值。
用LayerNorm技术把每层的输出拉回合适范围,对激活向量做归一化处理。
像GPT-2、LLaMA这些主流大模型,都在用这招,算是行业里的常规操作了。
除了激活值,梯度更新也得管起来。
比如Muon优化器会对更新做谱归一化处理,让每一步更新的幅度都在可控范围内,避免出现梯度爆炸或者消失的情况。
本来想是不是这两层就够了,但后来发现,直接“管住”权重本体才更关键。
研究里提了个新思路,试试归一化权重矩阵。
更重要的是,它把权重张量约束在某个子流形上,还说能顺着这些流形约束去设计优化算法。
如此看来,这思路跟以前比不一样了,以前是参数出了问题再调整,跟“救火”似的;现在是一开始就把参数放在健康区间,相当于“预防”。
很显然,这么做能让训练更稳,还更容易解释,大模型训练起来自然更高效。
我觉得这步走得挺聪明,毕竟提前规避问题,比事后补救省事多了。
讲完量级管理,就得说说流形优化器了,这玩意儿可是“紧箍咒”里的关键部件。
先搞懂两个基础概念,流形和切空间。
流形这东西,局部看起来是平坦的曲面,要是放大到足够程度,就跟普通平面没区别了。
而流形上某点附近的局部平坦空间,就叫“切空间”。
有张图,画的三维球面或者更高维度的超球面,红色部分就是某点的切平面,这么一想就好理解多了。
一开始,有人想让权重“待在”指定流形里,用普通优化器更新后,再把权重投影回流形。
但后来发现这办法有问题,要是优化步骤偏离流形太多,再强行投影回来,名义学习率就和参数在流形上的实际位移对不上了。
搞不清实际步长能带来什么效果,这训练起来心里就没底,显然并非明智之举。
那该怎么解决呢?答案是直接在切空间里优化。
这样每一步都能沿着流形“表面”走,学习率就能更好地对应“实际位移”。
常用的距离度量是欧几里得距离,当然也能选别的方式。
很显然,距离度量选得不一样,最优优化步骤的方向也会变。
而且咱们不一定非要严格跟着梯度方向移动,梯度就是损失函数对权重的偏导数,原文里用粉色箭头标出来了,这就给优化留了更多灵活空间。
要把这个过程用数学表达出来,就得把它当成带约束的优化问题。
比如用搭配欧几里得范数的超球面举例,用g表示梯度,w表示超球面上的当前点,a表示更新方向,η表示学习率。
求解的时候得用拉格朗日乘数法,λ和μ就是拉格朗日乘子。
对拉格朗日函数求导并令其为零,再结合约束条件,就能算出最优更新方向。
简单说,最优更新就是先从梯度里减去和w同方向的径向分量,把梯度投影到切空间上,再归一化,最后乘以学习率。
这个微小的修正过程叫“回缩映射”,还有张图展示了这个过程。
而完整的一阶流形优化算法分三步:先找到梯度方向上单位长度的切向量;用学习率乘以这个方向,从当前权重里减去;最后通过回缩映射把更新后的权重拉回流形上。
弄明白了流形优化器,再看ManifoldMuon和模块流形理论,就好理解多了。
毕竟大模型不是一层结构,层与层之间得配合好才行。
Transformer里的典型权重矩阵W,就是个“向量变换器”,把输入向量x转换成输出向量y=Wx。
咱们希望这个矩阵作用合理,既别让输出值太大或太小,也别在更新权重时让输出向量剧烈变化,或者几乎没变化。
怎么判断矩阵作用合不合理呢?用奇异值分解(SVD)就行,原文里也有张图展示这个过程,它能清楚显示矩阵怎么沿着不同轴拉伸输入向量。
研究里希望矩阵的“拉伸效应”接近1,所以选了所有奇异值均为1的矩阵流形,这在数学上叫Stiefel流形。
选好流形还不够,还得选合适的距离函数。
为了限制权重更新对输入向量的最大拉伸作用,谱范数是个不错的选择,它能度量矩阵的最大奇异值。
虽然它只约束了最大效应,但因为优化器会把这个上限用满,所以也能间接防止最小效应过小。
就是这个想法,促成了Muon优化器的提出,再结合Stiefel流形约束,就形成了“manifoldMuon”问题。
研究里还有个关键发现,这个问题是凸优化问题,能用对偶上升法求解,还推导出了对偶函数的梯度。
而且有个小实验验证了算法的可行性,原文里也放了实验设置和结果图,这就说明这方法不是纸上谈兵,是能落地的。
更何况大模型是多层组合起来的,层与层之间的交互不能忽视,优化策略也得跟着调整。
这时候模块流形理论就派上用场了,它能把之前的推导逻辑推广到整个神经网络。
核心思想是构建抽象机制,指导怎么在各层之间合理分配学习率。
而分配学习率或者对单个层缩放,都得基于对网络输出对权重的Lipschitz敏感性的理解。
搭建网络时追踪这种敏感性,流形约束又能帮咱们更精准地把握它,这样整个大模型训练就能更协调、更稳定。
毫无疑问,ThinkingMachinesLab的这个研究,从量级管理到流形优化器,再到ManifoldMuon和模块流形理论,一步步给大模型戴上了“紧箍咒”。
它解决了大模型训练中参数易失控、训练不稳定的老问题,把被动“救火”变成了主动“预防”。
要是这个技术能广泛应用,以后训练千亿甚至万亿参数的大模型,可能就不会再像以前那么费劲了,AI技术的发展速度说不定还能再提一提。
来源:乐娱侃事