840亿AI公司再发论文！翁荔力挺，ModularManifolds破训练难题

摘要：2025年9月27日，估值840亿的AI明星公司ThinkingMachines，直接甩出了第二篇研究论文。

2025年9月27日，估值840亿的AI明星公司ThinkingMachines，直接甩出了第二篇研究论文。

创始人是前OpenAI的CTOMiraMurati，这次还亲自为论文站台，翁荔、陈丹琦这些行业里的大佬也都转发支持，场面着实热闹。

这公司之前没出产品就估值百亿，现在接连发论文，倒让人想看看这研究到底有啥干货。

这篇论文主题叫“ModularManifolds”，唯一作者是JeremyBernstein，他既是公司的机器学习研究员，还在MIT做博士后。

网友看了都说，这论文对神经网络训练的理解挺深，还好奇这方法能不能用到超大模型上。

其实这研究要解决的问题，是大模型训练里的老麻烦了，网络里的张量比如权重、激活值这些，数值一旦太大或太小，训练就容易出问题，要么梯度没了，要么收敛得巨慢。

之前想解决这些问题，大家常用归一化方法，比如LayerNorm或者优化器里的梯度规范，算是行业里的“黄金标准”。

但Jeremy觉得，这些方法很少直接管权重矩阵，其实给权重矩阵做归一化很有价值。

你想啊，这样能把控更新量的大小，避免权重“爆炸”，研究员也能把精力放在影响大的张量上，矩阵行为也更稳定。

如此看来，他提出的“模块化流形”思路，不只是管单个权重，还把整个网络当成组合的流形来设计，连学习率和约束方式都统一了，这格局确实比之前的方法大。

聊完论文要解决的问题，咱再看看这研究是怎么落地的，步骤还挺清晰。

Jeremy先从简单的向量入手，假设要训练的参数是个向量W，还得让它一直在单位球面上，也就是||W||=1。

要是用普通的Adam或者SGD更新，更新完的向量很可能就跑出球面了。

流形优化对付这问题有套办法：先把梯度投到切空间，保证方向对，更新完再用Retraction投影拉回球面。

这里面有两个关键问题得想明白，用哪种流形约束，还有怎么测量长度，选得不一样，最后出来的优化算法也不同。

本来想这只是小例子，后来发现这一步其实是打基础，后面复杂的矩阵优化都靠它。

接着Jeremy就把思路用到矩阵上了。

Transformer的权重矩阵动不动就上千维，直接优化很容易失控，所以他把矩阵放去了Stiefel流形。

这流形上的矩阵有俩好处，列向量正交，条件数还等于1。

列向量正交能让不同方向的信号不干扰，模型能学出更独立的特征；条件数1意味着矩阵不会把向量放太大或缩太小，数值稳定性就有保障了。

基于这个流形，他还设计了个“流形Muon算法”，先在切空间算梯度更新，用奇异值分解这些操作保证合法，最后再投回流形。

为了验证这算法管用，他还做了个小规模实验，在CIFAR-10数据集上训小MLP，跟AdamW比了比。

结果是Muon的准确率稍高，权重矩阵的奇异值也更集中稳定，但每一步跑得比AdamW慢一点，extra开销花在dualascent计算和投影上。

不过Jeremy说后面能通过优化步数、加动量解决，老实讲，准确率上去了，慢一点倒不是大问题，后续调优就行。

最关键的是，他最后提出了“模块化流形”的概念。

单个矩阵的问题解决了，那多个层、多个模块咋办？他就把每层或每个模块当成独立的流形，各有各的范数和优化方法，组合成完整网络时，用笛卡尔积拼成大的流形空间。

还靠最大范数统一分配学习率，设个全局更新上限，这样每层能按自己的规则更参数，整个网络又不会乱，比那种“建个模型套个优化器”的做法协调多了。

看完论文的技术细节，咱再聊聊背后的人，这作者Jeremy的背景还挺有意思。

他本科和硕士都在剑桥大学三一学院学物理，还拿过NVIDIA的研究生奖学金，后来去加州理工读博，方向改成了计算与神经系统。

现在一边在ThinkingMachines做研究，一边在MIT做博士后，研究方向集中在算法优化、模型鲁棒性这些领域。

从物理转到AI，还能在优化器设计上做出东西，这种跨界背景怕是最有体会不同学科的融合优势了。

而且这论文虽然署名就Jeremy一个人，但翁荔提醒，从脚注能看出来，背后有不少跨界合作，数学、计算机科学、工程学都掺和了。

AI领域里，这种多学科协作才能出硬成果，之前DeepMind的AlphaFold不也是这么搞出来的嘛。

更何况，翁荔本身在AI训练优化领域就有经验，陈丹琦更不用说，清华姚班出来的，还是普林斯顿教授，之前就被曝加盟了这家公司，她团队最近还发了篇关于可验证奖励强化学习的论文，提出了RLMT方法。

有这些大佬加持，这公司的研发实力确实没法小看。

现在大家最关心的，就是这家公司啥时候出第一个产品。

毕竟论文写得再好，最终还得落地到产品上验证。

但从目前的研发节奏看，他们确实在踏踏实实干基础研究，这种风格或许能带动更多AI创业公司重视底层技术，而不是光盯着短期流量。

如此看来，不管是这篇论文带来的训练效率提升，还是公司后续的产品，都值得多关注关注。

总的来说，ThinkingMachines这第二篇论文，从解决训练痛点到提出模块化流形框架，技术逻辑是通顺的，小规模实验也初步验证了有效性。

再加上Jeremy的跨界背景、团队的跨界协作，还有翁荔、陈丹琦这些大佬的加持，这家高估值公司总算拿出了像样的研究成果。

期待后续他们能把这技术用到大模型上，早点推出产品，也希望这种重视基础研究的风气能在AI行业多起来。

来源：乐娱侃事

标签：训练论文流形 modularmanifolds jere

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!