七年前革命性论文共同作者Jones宣布:AI难有突破

B站影视 内地电影 2025-10-27 12:12 2

摘要:说清楚他是谁——他是那篇把注意力机制推到风口浪尖的论文《Attention Is All You Need》的共同作者之一,也是把“Transformer”这个名字带入圈子的人。那篇文章发布于2017年,从那以后这套架构成了很多大模型的基础,像ChatGPT、

Llion Jones当着台面说一句话:他要离开Transformer阵营。

说清楚他是谁——他是那篇把注意力机制推到风口浪尖的论文《Attention Is All You Need》的共同作者之一,也是把“Transformer”这个名字带入圈子的人。那篇文章发布于2017年,从那以后这套架构成了很多大模型的基础,像ChatGPT、Claude、Gemini之类的主流系统都是基于它在工程上发展起来的。Jones这次公开宣布离开,不光是个人职业走向的选择,更多像一次公开批评:他在台上直言,这条路已经把整个领域往一个角落逼得太紧了。

他讲的两个要点很直接。一个是现实:AI现在是真热,钱、人和算力都往这条路上堆。结果是短期见效的工程优化、参数堆栈和微调成了主流,大家都在把现有方法往更深处掘,不太有人愿意去冒险试别的路子。Jones用了“探索和利用”的比喻:当一个金矿被发现,所有人都拼命往下挖,没人抬头去看别处可能还有更大的矿。另一层是回忆起当年这套东西是怎么冒出来的——不是靠指标逼出来的,而是几个人午饭后在白板前随便聊的火花,是那种松散的环境给了冒险试错的空间。现在的环境不同了,新人一入职就要证明自己,发论文、争资源、追可量化的成果成了常态,这把实验精神和长周期探索压缩掉了。

为了把问题说明白,他举了具体现象。学术会议的投稿量飙升,评审和竞争也变得激烈,很多论文是在现有方法上做微小改进,内容上重复度高。Jones说,这个现象看起来是研究热,但其实很多人在做近似的事情,真正的架构性创新少见。再有就是“撞车”——好几拨团队在同一时间做差不多的微调、差不多的工程优化,耗费大量人力物力,效率不高。

这些话触动了一批想换路的人。国内外都有团队开始实验不同的思路,往更靠近生物大脑处理方式的方向试探。举个例子,中国科学院自动化研究所推出了名为“瞬悉1.0”的类脑大模型,团队试图把稀疏激活、事件驱动等机制引入计算里,目标是让模型处理长序列时更省电、效率更高。初步结果在某些任务上显示出能效层面的优势,但这条路工程难度不低:要调事件触发的阈值、处理同步延迟、稳定稀疏表示,训练时不稳定、调参复杂,都是现实问题。另一条路是Jones自己在Sakana AI推动的“连续思考机”,核心想法是把模型设计成能分步思考、保留中间状态,而不是把一堆信息一次性吞下去就吐结果。这种设计在训练流程上要拆分阶段、管理中间态和梯度,实验里出现过中间态崩溃、收敛慢等技术难题,调通要花不少功夫。

这些尝试看着很有吸引力,但推开去看,会碰到几堵墙。最明显的是钱和算力的问题:大多数资本和算力都优先投向能短期变现的Transformer优化方向。风投和企业更偏好“能迅速看到回报”的项目,基础性探索型工作回报期长、风险高,养不活太多人。再一个是基础设施——现有硬件、云服务和深度学习框架都被设计得对稠密矩阵运算友好,新范式要在这些基础上跑起来不容易,常常需要底层软件和硬件协同改造,成本高、路子长。

激励体系本身也在推这个潮流。现在衡量研究的指标偏向量化东西:论文数、模型参数、排行榜成绩,这些都容易比较,管理者也喜欢用它们给人做评估。问题是,这类指标并不总是鼓励去做跨越式的探索。Jones在台上直说,金钱、论文和排名这些外在东西,把很多人推离了最需要的前沿探索。于是就出现一个悖论:越能立刻带来好看数据的工作越容易获得资源,越难以立刻见效的基础探索越难获得持续支持。

他还提了一个看似简单但实际难做的建议:把未成熟的想法和失败公开出来,不要等到把idea打磨成完美稿再露脸。换句话说,科研圈儿应该把分享失败、早期构想当成常态,而不是把它当成资历不足的表现。现在有些开放科学社区在做这种尝试,但广撒开来会碰到现实阻力:年轻科研人员需要论文和成果来争职位,企业怕把未成型想法公开后被人抢先商用,制度和信任不足,使得这种开放难以普及。

会场反应不是一边倒。有人点头赞同,认为确实需要把目光从纯工程优化拉回到基础探索上;也有人觉得Jones有点理想化,现实的商业需求和学术晋升机制不是一句话就能改变的。媒体当晚把这事儿放大了,社交平台上热议不断,有人把这看成是一次圈内自省,也有人把它解读成潜在的分裂信号。

讲得更具体一点,那些走不同路线的团队在实验室里都在啃硬骨头。像“瞬悉1.0”团队,他们不仅要设计新的激活机制,还要在现有的计算栈上把这些机制高效实现,遇到的难题包括训练不稳定、稀疏表示的工程化实现、以及如何在主流硬件上节能运行。Sakana AI的团队在拆分训练目标、让模型能在阶段间保留中间思路时,很多实验会因为中间态管理不当而失败,反复修修补补花了大量时间去保证梯度流正确和收敛稳定。两条路都不是那种几周内能见效的玩法,更多是长期的细致工程和理论结合。

资金上的现实又把事情逼回原点。早期这些高风险项目往往靠科研补贴、课题经费或小规模风投支撑,等到想放大规模、推到工业级别时,缺乏愿意长期押注基础研究的资本。很多投资者看的是短期回报率和明确的商业路径,研究型项目的回报曲线太平缓、风险太大,这就使得人才向更能出成果的团队流动。Jones提到这一点时,把研究者的选择空间比喻成被压缩的箱子:里头能走的路越来越少。

最难的,其实是信任和制度的问题。把失败写出来、把想法早早丢到公开讨论里,这需要一种不惧职业风险的文化和相应的评价机制支撑。大家要能在公开讨论初稿、半成品时不怕被抢先落地、也不担心被看作“不够成熟”,这需要期刊、会议、资助机构改变评估方式,给开源和早期分享留空间。要不然很多好点子永远只能在抽屉里慢慢变老,等到有人把它拿出来,可能已经被别人用更安全的方式做了。

再往外拉一步看,改变不是某个人一句话就能带来。硬件厂商、云服务提供者、学术评估体系、投资方和企业产品路线都牵涉其中。要让生态真的愿意为新范式让路,需要在多个层面同时动手:给高风险探索更多长期资金、在会议和期刊上为负结果或早期想法留空间、在硬件和软件栈上提供对新机制的支持、以及在学术评价上减少对表面指标的依赖。听上去像是整盘棋要重排,现实中每一步都得慢慢谈、慢慢试。

会场的灯光渐暗,Jones的话还在许多人的脑子里回响。有人低声讨论着接下来该不该把自己的失败写出来,有的团队在想是不是把下一轮的课题拨向更大胆的方向。话题没有定论,讨论继续在会议走廊、社交媒体和实验室里发酵,很多人的选择会在未来几个月、几年内慢慢显现。

来源:科学闻

相关推荐