摘要:2025年9月27日,估值840亿的AI明星公司ThinkingMachines,直接甩出了第二篇研究论文。
2025年9月27日,估值840亿的AI明星公司ThinkingMachines,直接甩出了第二篇研究论文。
创始人是前OpenAI的CTOMiraMurati,这次还亲自为论文站台,翁荔、陈丹琦这些行业里的大佬也都转发支持,场面着实热闹。
这公司之前没出产品就估值百亿,现在接连发论文,倒让人想看看这研究到底有啥干货。
这篇论文主题叫“ModularManifolds”,唯一作者是JeremyBernstein,他既是公司的机器学习研究员,还在MIT做博士后。
网友看了都说,这论文对神经网络训练的理解挺深,还好奇这方法能不能用到超大模型上。
其实这研究要解决的问题,是大模型训练里的老麻烦了,网络里的张量比如权重、激活值这些,数值一旦太大或太小,训练就容易出问题,要么梯度没了,要么收敛得巨慢。
之前想解决这些问题,大家常用归一化方法,比如LayerNorm或者优化器里的梯度规范,算是行业里的“黄金标准”。
但Jeremy觉得,这些方法很少直接管权重矩阵,其实给权重矩阵做归一化很有价值。
你想啊,这样能把控更新量的大小,避免权重“爆炸”,研究员也能把精力放在影响大的张量上,矩阵行为也更稳定。
如此看来,他提出的“模块化流形”思路,不只是管单个权重,还把整个网络当成组合的流形来设计,连学习率和约束方式都统一了,这格局确实比之前的方法大。
聊完论文要解决的问题,咱再看看这研究是怎么落地的,步骤还挺清晰。
Jeremy先从简单的向量入手,假设要训练的参数是个向量W,还得让它一直在单位球面上,也就是||W||=1。
要是用普通的Adam或者SGD更新,更新完的向量很可能就跑出球面了。
流形优化对付这问题有套办法:先把梯度投到切空间,保证方向对,更新完再用Retraction投影拉回球面。
这里面有两个关键问题得想明白,用哪种流形约束,还有怎么测量长度,选得不一样,最后出来的优化算法也不同。
本来想这只是小例子,后来发现这一步其实是打基础,后面复杂的矩阵优化都靠它。
接着Jeremy就把思路用到矩阵上了。
Transformer的权重矩阵动不动就上千维,直接优化很容易失控,所以他把矩阵放去了Stiefel流形。
这流形上的矩阵有俩好处,列向量正交,条件数还等于1。
列向量正交能让不同方向的信号不干扰,模型能学出更独立的特征;条件数1意味着矩阵不会把向量放太大或缩太小,数值稳定性就有保障了。
基于这个流形,他还设计了个“流形Muon算法”,先在切空间算梯度更新,用奇异值分解这些操作保证合法,最后再投回流形。
为了验证这算法管用,他还做了个小规模实验,在CIFAR-10数据集上训小MLP,跟AdamW比了比。
结果是Muon的准确率稍高,权重矩阵的奇异值也更集中稳定,但每一步跑得比AdamW慢一点,extra开销花在dualascent计算和投影上。
不过Jeremy说后面能通过优化步数、加动量解决,老实讲,准确率上去了,慢一点倒不是大问题,后续调优就行。
最关键的是,他最后提出了“模块化流形”的概念。
单个矩阵的问题解决了,那多个层、多个模块咋办?他就把每层或每个模块当成独立的流形,各有各的范数和优化方法,组合成完整网络时,用笛卡尔积拼成大的流形空间。
还靠最大范数统一分配学习率,设个全局更新上限,这样每层能按自己的规则更参数,整个网络又不会乱,比那种“建个模型套个优化器”的做法协调多了。
看完论文的技术细节,咱再聊聊背后的人,这作者Jeremy的背景还挺有意思。
他本科和硕士都在剑桥大学三一学院学物理,还拿过NVIDIA的研究生奖学金,后来去加州理工读博,方向改成了计算与神经系统。
现在一边在ThinkingMachines做研究,一边在MIT做博士后,研究方向集中在算法优化、模型鲁棒性这些领域。
从物理转到AI,还能在优化器设计上做出东西,这种跨界背景怕是最有体会不同学科的融合优势了。
而且这论文虽然署名就Jeremy一个人,但翁荔提醒,从脚注能看出来,背后有不少跨界合作,数学、计算机科学、工程学都掺和了。
AI领域里,这种多学科协作才能出硬成果,之前DeepMind的AlphaFold不也是这么搞出来的嘛。
更何况,翁荔本身在AI训练优化领域就有经验,陈丹琦更不用说,清华姚班出来的,还是普林斯顿教授,之前就被曝加盟了这家公司,她团队最近还发了篇关于可验证奖励强化学习的论文,提出了RLMT方法。
有这些大佬加持,这公司的研发实力确实没法小看。
现在大家最关心的,就是这家公司啥时候出第一个产品。
毕竟论文写得再好,最终还得落地到产品上验证。
但从目前的研发节奏看,他们确实在踏踏实实干基础研究,这种风格或许能带动更多AI创业公司重视底层技术,而不是光盯着短期流量。
如此看来,不管是这篇论文带来的训练效率提升,还是公司后续的产品,都值得多关注关注。
总的来说,ThinkingMachines这第二篇论文,从解决训练痛点到提出模块化流形框架,技术逻辑是通顺的,小规模实验也初步验证了有效性。
再加上Jeremy的跨界背景、团队的跨界协作,还有翁荔、陈丹琦这些大佬的加持,这家高估值公司总算拿出了像样的研究成果。
期待后续他们能把这技术用到大模型上,早点推出产品,也希望这种重视基础研究的风气能在AI行业多起来。
来源:乐娱侃事