840亿AI公司再发论文!翁荔力挺,ModularManifolds破训练难题

B站影视 电影资讯 2025-09-28 16:15 1

摘要:2025年9月27日,估值840亿的AI明星公司ThinkingMachines,直接甩出了第二篇研究论文。

2025年9月27日,估值840亿的AI明星公司ThinkingMachines,直接甩出了第二篇研究论文。

创始人是前OpenAI的CTOMiraMurati,这次还亲自为论文站台,翁荔、陈丹琦这些行业里的大佬也都转发支持,场面着实热闹。

这公司之前没出产品就估值百亿,现在接连发论文,倒让人想看看这研究到底有啥干货。

这篇论文主题叫“ModularManifolds”,唯一作者是JeremyBernstein,他既是公司的机器学习研究员,还在MIT做博士后。

网友看了都说,这论文对神经网络训练的理解挺深,还好奇这方法能不能用到超大模型上。

其实这研究要解决的问题,是大模型训练里的老麻烦了,网络里的张量比如权重、激活值这些,数值一旦太大或太小,训练就容易出问题,要么梯度没了,要么收敛得巨慢。

之前想解决这些问题,大家常用归一化方法,比如LayerNorm或者优化器里的梯度规范,算是行业里的“黄金标准”。

但Jeremy觉得,这些方法很少直接管权重矩阵,其实给权重矩阵做归一化很有价值。

你想啊,这样能把控更新量的大小,避免权重“爆炸”,研究员也能把精力放在影响大的张量上,矩阵行为也更稳定。

如此看来,他提出的“模块化流形”思路,不只是管单个权重,还把整个网络当成组合的流形来设计,连学习率和约束方式都统一了,这格局确实比之前的方法大。

聊完论文要解决的问题,咱再看看这研究是怎么落地的,步骤还挺清晰。

Jeremy先从简单的向量入手,假设要训练的参数是个向量W,还得让它一直在单位球面上,也就是||W||=1。

要是用普通的Adam或者SGD更新,更新完的向量很可能就跑出球面了。

流形优化对付这问题有套办法:先把梯度投到切空间,保证方向对,更新完再用Retraction投影拉回球面。

这里面有两个关键问题得想明白,用哪种流形约束,还有怎么测量长度,选得不一样,最后出来的优化算法也不同。

本来想这只是小例子,后来发现这一步其实是打基础,后面复杂的矩阵优化都靠它。

接着Jeremy就把思路用到矩阵上了。

Transformer的权重矩阵动不动就上千维,直接优化很容易失控,所以他把矩阵放去了Stiefel流形。

这流形上的矩阵有俩好处,列向量正交,条件数还等于1。

列向量正交能让不同方向的信号不干扰,模型能学出更独立的特征;条件数1意味着矩阵不会把向量放太大或缩太小,数值稳定性就有保障了。

基于这个流形,他还设计了个“流形Muon算法”,先在切空间算梯度更新,用奇异值分解这些操作保证合法,最后再投回流形。

为了验证这算法管用,他还做了个小规模实验,在CIFAR-10数据集上训小MLP,跟AdamW比了比。

结果是Muon的准确率稍高,权重矩阵的奇异值也更集中稳定,但每一步跑得比AdamW慢一点,extra开销花在dualascent计算和投影上。

不过Jeremy说后面能通过优化步数、加动量解决,老实讲,准确率上去了,慢一点倒不是大问题,后续调优就行。

最关键的是,他最后提出了“模块化流形”的概念。

单个矩阵的问题解决了,那多个层、多个模块咋办?他就把每层或每个模块当成独立的流形,各有各的范数和优化方法,组合成完整网络时,用笛卡尔积拼成大的流形空间。

还靠最大范数统一分配学习率,设个全局更新上限,这样每层能按自己的规则更参数,整个网络又不会乱,比那种“建个模型套个优化器”的做法协调多了。

看完论文的技术细节,咱再聊聊背后的人,这作者Jeremy的背景还挺有意思。

他本科和硕士都在剑桥大学三一学院学物理,还拿过NVIDIA的研究生奖学金,后来去加州理工读博,方向改成了计算与神经系统。

现在一边在ThinkingMachines做研究,一边在MIT做博士后,研究方向集中在算法优化、模型鲁棒性这些领域。

从物理转到AI,还能在优化器设计上做出东西,这种跨界背景怕是最有体会不同学科的融合优势了。

而且这论文虽然署名就Jeremy一个人,但翁荔提醒,从脚注能看出来,背后有不少跨界合作,数学、计算机科学、工程学都掺和了。

AI领域里,这种多学科协作才能出硬成果,之前DeepMind的AlphaFold不也是这么搞出来的嘛。

更何况,翁荔本身在AI训练优化领域就有经验,陈丹琦更不用说,清华姚班出来的,还是普林斯顿教授,之前就被曝加盟了这家公司,她团队最近还发了篇关于可验证奖励强化学习的论文,提出了RLMT方法。

有这些大佬加持,这公司的研发实力确实没法小看。

现在大家最关心的,就是这家公司啥时候出第一个产品。

毕竟论文写得再好,最终还得落地到产品上验证。

但从目前的研发节奏看,他们确实在踏踏实实干基础研究,这种风格或许能带动更多AI创业公司重视底层技术,而不是光盯着短期流量。

如此看来,不管是这篇论文带来的训练效率提升,还是公司后续的产品,都值得多关注关注。

总的来说,ThinkingMachines这第二篇论文,从解决训练痛点到提出模块化流形框架,技术逻辑是通顺的,小规模实验也初步验证了有效性。

再加上Jeremy的跨界背景、团队的跨界协作,还有翁荔、陈丹琦这些大佬的加持,这家高估值公司总算拿出了像样的研究成果。

期待后续他们能把这技术用到大模型上,早点推出产品,也希望这种重视基础研究的风气能在AI行业多起来。

来源:乐娱侃事

相关推荐