摘要:2025年旧金山的TEDAI大会上,一个男人的发言让全场安静了,LlionJones,8年前那篇掀翻AI界的论文《AttentionIsAllYouNeed》的共同作者。
2025年旧金山的TEDAI大会上,一个男人的发言让全场安静了,LlionJones,8年前那篇掀翻AI界的论文《AttentionIsAllYouNeed》的共同作者。
Transformer架构的“亲爹”之一,当众宣布要给Transformer“降频”。
“现在的AI研究就像挤在窄胡同里抢路,”他这话一出口,台下不少拿着高薪的研究员都低下了头。
要知道,正是他参与创造的Transformer,撑起了如今ChatGPT、Gemini这些AI明星产品,那篇2017年6月发表的论文,被引用次数早就突破了18万次,说是“生成式AI的准生证”都不为过。
可如今亲爹要“跑路”,理由很直接:这孩子太“吵”,圈子太卷。
在台上翻出了老黄历,提醒大家别忘了Transformer诞生前的日子。
那会儿整个学界都在跟RNN(循环神经网络)死磕,今天加个参数,明天调个激活函数,就像拿着块石头反复抛光。
结果Transformer一出来,那些精细的改进瞬间成了笑话,“跟给马车装碳纤维尾翼似的,看着精致,压根没用”,现在谁还会正经讨论RNN?而Transformer的诞生,纯属“不务正业”的产物。
2017年前后,Jones和另外七位同事在谷歌办公,没有老板催着出成果,更没有KPI压着要发论文。
几个人经常凑在食堂唠嗑,或者在白板上乱涂乱画,从机器翻译的痛点聊到注意力机制的可能性。
后来黄仁勋请“Transformer八子”圆桌座谈时,大家还回忆起这段日子,说当时就想解决“RNN处理长文本太慢”的朴素问题,压根没想过要掀起革命。
“先有自由,后有灵感”,Jones这话戳中了现在AI圈的痛处。当年谷歌给的宽松环境,养出了Transformer这个“金娃娃”。
可现在呢?资本像潮水一样涌进来,投资人天天盯着回报,研究员生怕自己的想法被别人抢先发表,只能扎堆在“卷参数、刷SOTA”的赛道上。
七位数年薪的岗位不少,但没人敢“瞎折腾”,新入职先稳绩效,低风险、快出成果的研究才是王道,想象力早就被排在了后面。
嫌圈子太卷,Jones干脆跑到东京创办了SakanaAI,当起了“反内卷组长”。
他要在这儿复刻Transformer诞生前的“空气配方”:少点KPI,多点好奇心;少跟风蹭热点,多从自然里找灵感。
外媒说这家公司正在谈新一轮融资,估值目标直奔25亿美元,可Jones招人的时候,手里的王牌不是钱,是“自由”。
他给团队立下了一条规矩,引用工程师BrianCheung的话:“只做那些如果不是我们来做,就没人会做的研究”。
有个员工提出想在神经网络里融入类似大脑的同步机制,这想法在以前的公司里早被当成“瞎耽误功夫”,但Jones大手一挥,给了他一周时间探索。
没想到这事儿真成了,相关成果还登上了AI顶会NeurIPS。
更狠的是SakanaAI搞出的“AI科学家”系统,联合牛津大学的研究者做出来的这个家伙,能自己想课题、写代码、做实验,甚至能写出达到顶会“弱接受”标准的论文。
从扩散模型到Transformer改进,它一个人就能完成全流程,成本还低得惊人。
这要是放在追求“快出成果”的大厂,恐怕没人敢花时间啃这种“硬骨头”。
Jones自己也没想到,自由居然成了抢人的“利器”。
他发现,真正有才华的研究者,对自由的敏感度比钱高多了。
“聪明人自然会找能让他们安心折腾的地方”,这话没错,在AI人才被疯抢的2025年,Meta甚至开出过1亿美元签约金挖人,但还是有人愿意降薪去SakanaAI,就为了能安安静静搞点新东西。
Jones“跑路”搞新方向,当年一起写论文的另外七位“Transformer之父”也早就各奔东西了。
2024年英伟达GTC大会上,黄仁勋把其中七位请上圆桌,这还是他们第一次集体亮相,只不过除了LukaszKaiser还在OpenAI当研究员,其他人都扎进了创业圈。
带头的AshishVaswani创办了EssentialAI,2025年6月接受采访时说,要把公司做成“西方的DeepSeek”;NoamShazeer回了谷歌,成了Gemini的技术负责人;NikiParmar先跟Vaswani一起创业,后来跳槽去了Anthropic。
最跨界的是JakobUszkoreit,搞了家叫InceptiveNucleics的公司,2025年在TED上分享“AI绕开传统科学”的思路,一门心思扑在“生物软件”上。
搞商业的也不含糊。
AidanGomez创办的Cohere在2025年10月放出消息,说很快要启动IPO,公司估值已经冲到70亿美元,年化收入都过亿了,主攻企业私有部署业务。
IlliaPolosukhin则另辟蹊径,搞了个NEARProtocol,提倡“用户所有的AI”,2025年还在英伟达大会上聊了“机密AI计算”,跟主流大厂的路线完全不一样。
有意思的是,Cohere的AidanGomez在圆桌会上说了句大实话:“我们希望世界能诞生比Transformer更好的东西”。
这话跟Jones的想法不谋而合,不是Transformer不好,而是它太成功了,反而成了“绊脚石”。
就像当年RNN的完善阻碍了新架构的出现,现在大家对着Transformer薅羊毛,早把“探索”这事儿抛到了脑后。
别误会,Jones不是要把Transformer一脚踢开。
他反复强调,现有技术还有大量重要工作要做,未来几年照样能创造价值。
但问题是,2025年的AI圈,手里的资源和人才密度比2017年强多了,完全“买得起”更多探索。
就像MiniMax搞出的新架构,用线性注意力机制实现了400万token的超长上下文,虽然没跳出Transformer的框架,但也是种突破。
他最怕的是历史重演:当年大家给马车装各种高级配件,却没发现路口停着飞船;现在要是一直盯着Transformer打补丁,下一个“Transformer级”的突破可能就在拐角处,却没人愿意转头看。
深度学习之父辛顿2025年在WAIC大会上也警告,AI发展不能只盯着眼前的进步,得想想更长远的方向。
Jones的呼吁其实很简单:把“军备竞赛”改成“开箱分享”。
别再藏着掖着抢发论文,大家多交流点新奇想法,说不定下一次革命就来了。
毕竟他跟Transformer打交道的时间比几乎所有人都长,他比谁都清楚,真正的创新从来不是卷出来的,是“瞎折腾”出来的。
从2017年那篇不起眼的论文,到现在改变世界的生成式AI,Transformer的故事还没结束。
但就像Jones说的,该给“自己的孩子”留些空间,也给好奇心多些机会,毕竟下一个惊喜,说不定就在某个“午饭唠嗑+白板乱画”的瞬间里。
来源:探秘发现一点号