摘要:AI圈的目光又被那家“明星公司”吸引了——估值840亿的Thinking Machines刚放出第二篇论文,就被翁荔、陈丹琦等大佬集体转发,前OpenAI CTO Mira Murati更是亲自站台。
AI圈又炸锅了!
840亿巨头Thinking Machines刚甩出第二篇论文,竟让翁荔、陈丹琦这些顶流学者集体转发。
要知道现在AI圈拼参数拼得头破血流,这家公司却反其道而行。
更关键的是,这家成立才半年多的公司,背后既有OpenAI骨干;
又有陈丹琦这样的华人顶尖学者,现在还手握20亿融资。
他们这波不拼参数拼基础的操作,难道要改写AI训练的游戏规则?
AI圈的目光又被那家“明星公司”吸引了——估值840亿的Thinking Machines刚放出第二篇论文,就被翁荔、陈丹琦等大佬集体转发,前OpenAI CTO Mira Murati更是亲自站台。
这次他们没谈大模型参数,反而扎进了最基础的训练难题,给出的“模块化流形”方案。
要理解这篇论文的价值,得先搞懂大模型训练的“老大难”:就像指挥一支百万大军却没有统一军纪,神经网络里的权重、梯度这些“小兵”经常擅自变大变小.
要么“炸营”(梯度爆炸),要么“躺平”(梯度消失),最后训练出来的模型要么不稳定,要么学半天没效果。
过去行业都靠“归一化”救场,比如给激活值做层归一化,给梯度加约束,但没人敢动权重矩阵这块“硬骨头”。
毕竟Transformer的权重矩阵动辄成千上万维,随便调整就可能牵一发而动全身。
但Thinking Machines的研究员Jeremy Bernstein偏要啃这块硬骨头,他的核心思路很简单:给权重矩阵“划地盘”,让它们在规定范围内活动。
这个“地盘”在数学上叫“流形”,你可以理解为给权重参数搭了个无形的“舞台”。比如训练一个向量参数,就把它困在“单位球面”上——不管怎么更新,最后都得被“拉回”球面上。
Bernstein把这招从简单向量推广到了复杂矩阵,选定了“Stiefel流形”这个特殊舞台。
在这个舞台上的权重矩阵有两个天生优势:列向量互相垂直,就像军队里各部队互不干扰;条件数固定为1,不会把信号随意放大或缩小。
基于这个舞台,他设计出“流形Muon算法”,更新参数时先算方向,再做调整,最后强制“归位”,一套流程下来,权重再也不会“乱跑”。
为了验效果,Bernstein做了个小实验:在CIFAR-10图像数据集上训练小MLP模型,对比新算法和常用的AdamW。
结果很意外,新算法的训练和测试准确率都更高,权重矩阵的数值稳定性比AdamW略好一些。唯一的小问题是每步运行稍慢,但作者说优化计算步骤就能解决,显然胸有成竹。
真正的突破在后面——单个矩阵的约束搞通了,整个神经网络怎么办?
Bernstein提出的“模块化流形”给出了答案:把每一层、每个模块都当成独立的“小舞台”,各有各的规则,再用笛卡尔积把这些“小舞台”拼成全网的“大舞台”。
更妙的是全局调控机制:用“最大范数”给所有模块设个更新上限,就像给各部队定了统一的行军速度,既保证了每层的灵活性,又避免了整个网络步伐混乱。
这篇论文的背后,藏着Thinking Machines的野心,这家成立才半年多的公司,能拿到20亿美元种子轮融资、估值120亿美元,靠的就是这种“从根上解决问题”的研究风格。
团队里既有OpenAI前骨干,又有陈丹琦这样的华人顶尖学者——这位清华姚班出身的科学家,她研究的模型优化技术,和这篇论文堪称“强强联手”。
而且作者Bernstein本人就是个跨界高手:剑桥物理本科、加州理工神经科学博士,现在还在MIT做博后。这种文理交叉的背景,正好契合了流形优化这种“数学+AI”的研究需求。
他在脚注里也坦言,这项成果是数学、计算机、工程领域研究员跨界合作的结晶。
结合这家公司9月10日发布的第一篇论文——解决LLM推理的不确定性问题,不难看出他们的路线:不追求参数竞赛,而是深耕基础技术。
在AI行业疯狂堆参数的当下,这种打法反而可能更稳。毕竟大模型的竞争终会回归本质:谁能把训练搞稳定、把效率提上去,谁才能笑到最后。
网友的疑问也很实在:小模型上管用,能用到千亿参数的大模型上吗?这可能是Thinking Machines接下来要啃的硬骨头。
但只要方向对了,剩下的只是时间问题,有陈丹琦、翁荔这样的智囊团加持,再加上20亿美元融资打底,这家公司说不定真能改写AI训练的游戏规则。
翁荔
来源:小张的科普任意门