Jones告别Transformer!AI创新陷僵局,替代方案藏在哪?

B站影视 电影资讯 2025-10-29 16:48 3

摘要:LlionJones,就是那个和团队一起搞出Transformer架构,还给这架构起名字的人,现在当着满场人的面说,他已经厌倦了自己帮忙创造的这项技术。

2024年4月旧金山的TEDAI大会上,有个消息直接在AI圈陷入争议。

LlionJones,就是那个和团队一起搞出Transformer架构,还给这架构起名字的人,现在当着满场人的面说,他已经厌倦了自己帮忙创造的这项技术。

这人的分量不用我多讲。

2017年他和另外7位研究者一起发了篇叫《Attention is all you need》的论文,现在全球主流的大模型,从Chat GPT到Claude,再到咱们国内的一些模型,全是在Transformer的基础上做的。

这论文到现在已经被引用超过二十万次,说是本世纪计算机科学里最有影响力的成果之一,没人会反对。

可就是这么个“奠基人”级别的人物,现在却直言AI领域陷进了创新僵局,说大家太盯着Transformer这一个架构,早晚得错过下一个大突破。

这话说出来,硅谷那边立马就有了大反应。

Meta的首席科学家YannLeCun在X上回复,说部分同意Jones的看法,Transformer是需要补充,但完全扔了不用也不现实;斯坦福AI实验室的李飞飞则说,Jones这警告就是行业急需的“清醒剂”。

两边一讨论,AI创新僵局这话题当天阅读量就破了2亿。

本来想看看大家会不会一边倒地支持Jones,后来发现分歧还挺大,有人觉得他是杞人忧天,也有人觉得他说到了点子上。

为啥Jones会这么担心?咱们先聊聊现在AI研究者的处境。

之前新加坡国立大学做过个研究,说在顶级AI会议上发表论文的研究者,平均一年得发4.5篇才能保住竞争力。

就拿NeurIPS来说,2025年的投稿量快到3万篇了,评审系统都快扛不住了。

有个评审员私下说,现在审一篇论文有时候就十分钟,根本没时间细抠内容。

很显然,这种情况下没人敢轻易搞“冒险”的研究。

本来想试试那些没被验证过的新想法,但后来发现,与其花时间做可能出不来成果的探索,不如在Transformer上做点小修小补,比如调调参数、优化下细节,这样论文好发,还能快速出成绩。

我身边有个搞AI研究的朋友就说,他们团队去年为了赶论文,把一个没做完的Transformer微调项目提前投了稿,结果实验数据的漏洞被审稿人一眼看出来,最后还得返工。

除了发论文的压力,研究“撞车”的情况也越来越多。

之前谢赛宁团队搞的表征自编码器,差不多同时就有三篇论文提出了类似的想法;智谱的Glyph和深度求索的DeepSeek-OCR,在视觉文本标记化的方法上也几乎一样。

这种情况下,大家只能抢着发论文,研究质量自然就下来了。

我觉得这不是研究者不想创新,而是大环境逼着他们只能先顾眼前。

Jones还拿“探索与利用”这个说法比喻现在的情况,说行业现在太偏向“利用”Transformer,也就是在现有技术上做优化,却很少“探索”新的方向,这样早晚得陷进“局部最优”,简单说就是,看着现在这条路能走通,就忘了还有可能有更好的路。

他还回忆起当年做Transformer的时候,那时候的环境和现在完全不一样。

说是项目想法有时候就是午餐时聊出来的,或者在办公室白板上随便画出来的。

团队有足够的自由去试那些不成熟的想法,没有管理层催着要发多少论文、要达到什么指标。

可现在呢?AI领域商业化这么厉害,这种自由早就成了稀罕物。

为了改变这种情况,Jones在他现在任职的SakanaAI做了些尝试。

这家公司在东京,主打受自然启发的AI研究。

他在公司里特意降低了大家发论文、跟竞争对手比拼的压力,还跟团队说“你只应该做那些如果你不做就不会出现的研究”。

还真有个成功的例子,就是他们搞的“连续思维机器”项目。

这个项目把类脑同步机制放进神经网络里,想让AI不再“一步到位”做决定。

据说提出这个想法的员工之前在别的公司提过,结果被质疑是浪费时间。

但在SakanaAI,Jones给了他一周时间去探索,最后这个项目还入选了NeurIPS2025的焦点论文。

而且最近有消息说,SakanaAI正以25亿美元的估值筹集1亿美元资金,看来投资者对这种“非主流”的研究路径也挺认可。

一边是Transformer的“统治”,一边是Jones的“逃离”

不过话说回来,Sakana AI毕竟是家小初创公司,有试错的空间。

那些大科技公司,比如Meta、谷歌、微软,手下几千个研究员,每年投几十亿美元,想让他们完全放弃短期目标和发论文的压力,根本不现实。

他们得向股东证明钱没白花,自然就得盯着那些能量化的成果。

Jones对Transformer的担心,不光是因为研究环境,还有技术本身的局限。

他没说Transformer不好,只是觉得以现在行业的人才和资源,完全能做得更多。

这个观点也不是他一个人提,中国发布的《2025大模型架构创新研究报告》里就说,Transformer的计算复杂度和序列长度是平方关系,处理长文本的时候特别费劲。

比如文本长度超过10万字,模型的推理速度能比1万字的时候下降很多,内存占用也会翻好几倍。

就算是GPT-4Turbo号称支持128k上下文,其实也是用了“滑动窗口”这种妥协的办法,根本没解决根本问题。

上海人工智能实验室的周伯文也说,现在Transformer的局限越来越明显,找什么样的架构能带来根本性创新,已经成了关键问题。

可现在绝大多数的钱和人力,还是扎在优化Transformer上,毕竟这条路走得通,能快速出成绩。

行业里也有人在试替代方案,比如状态空间模型、新型循环架构这些。

像2024年OpenAI测试过的状态空间模型S4,处理100万字文本的时候,速度比Transformer快5倍;字节跳动2024年2月开源的RWKV架构,在小样本学习任务上也比同参数的Transformer强。

但问题是,这些替代方案能拿到的研发投入,还不到Transformer的零头。

Jones自己也说了,他在2024年初做了个决定,要大幅减少在Transformer上花的时间,专门去找下一个大突破。

这话的象征意义挺重,连创造它的人都要转向了,行业是不是也该好好想想?

可现实是,大多数研究者没Jones那样的声望和资源。

年轻研究员要靠论文拿学位、找工作;公司里的研究部门要靠成果证明预算没白花。

在这种情况下,敢去做没被验证过的新架构研究,简直是拿职业生涯冒险。

Jones说的“整个领域一起多做探索”,没有制度支持的话,根本没法实现。

更麻烦的是,谁也不知道下一个突破性架构需要什么条件。

Transformer当年能成功,一部分是因为它刚好赶上了GPU并行计算发展,还有大规模文本语料库能用。

下一个架构可能需要完全不同的计算方式或者数据形式,这些条件现在可能还没成熟。

要是盲目扔了Transformer去搞新的,最后可能既浪费了资源,又没做出成果。

Jones也明白这一点,他说“现在的技术太强大、太灵活,反而让我们不想去找更好的技术了。

要是现在的技术没这么好用,肯定会有更多人去想新办法”。

这话挺扎心,但也是事实,成功本身有时候就是创新的障碍。

Transformer现在还能用,就算边际回报在减少,也比从零开始搞新架构靠谱,大家自然就不愿意动了。

最后Jones还呼吁大家多分享探索性的发现,别总想着竞争优势。

他说“这不是一场竞赛,我们都想让这项技术进步,让所有人都受益”。

在现在这个商业化的AI领域,这种想法挺难得,但能不能真的影响行业,还得看后续发展。

现在谁也没法确定Transformer会一直主导下去,还是很快会有新的范式出现。

Jones的警告到底是先见之明,还是过度悲观,可能得好几年后才能有答案。

但至少他这番话给行业提了个醒,别光顾着抢眼前的收益,那些可能改变游戏规则的长期探索,也得留点心。

毕竟AI领域要想一直往前走,不能只靠在一条路上反复打转,多试试新方向,才有可能看到不一样的风景。

来源:念寒尘缘

相关推荐