与 Meta 田渊栋聊他的智能想象:我们终会 “所思即所得”

B站影视 日本电影 2025-06-05 19:21 2

摘要:这一期的嘉宾是 Meta GenAI 研究总监,田渊栋。他是 AI 研究者,先后于上海交大、卡耐基梅隆大学机器人研究所获学士、硕士和博士学位。田渊栋自 2005 年开始探索智能和人工智能,最近 10 年,他一直在 Meta 从事 AI 研发。

整理 | 刘倩

这是「I,AI」的第二期,这个系列中,我们会讨论 AI 和我们日常工作与生活的关系。

这一期的嘉宾是 Meta GenAI 研究总监,田渊栋。他是 AI 研究者,先后于上海交大、卡耐基梅隆大学机器人研究所获学士、硕士和博士学位。田渊栋自 2005 年开始探索智能和人工智能,最近 10 年,他一直在 Meta 从事 AI 研发。

他还有另一重职业身份——小说家。博士生期间,田渊栋就开始写小说。他在 2021 年连载完了第一部长篇科幻小说《破晓之钟》,这本书在 2024 年正式出版。

《破晓之钟》写作于 ChatGPT 热潮之前,全部内容都是田渊栋自己写的,没有借助 AI。而书里的核心科幻概念和科幻点子,则体现了一个 AI 科学家的技术思维。田渊栋认为,每个技术时代——蒸汽时代、电气时代、信息时代、智能时代——都对应的不同科幻命题和故事。他想写出有 AI 内核的科幻。

几年后再看,书里的一些设计,“预言”了后来围绕算力与智能的攻防战,本书也讨论了当人类不再需要工作时,可能带来什么危机。

这一期,我们会从《破晓之钟》这本科幻长篇开始聊,延展到田渊栋对未来 AI 技术、社会与人类命运的想象。

图注:《破晓之钟》2024 年出版版。

因为本书的主角和英雄们是一群研究者,我们也由此聊了 AI 研究人员的生活与选择。田渊栋也分享了 2023 年之后,他如何尝试在写作工作流里引入更多 AI,AI 现在能帮他做什么,还不能做什么。

晚点:田老师去年正式出版了 2021 年连载完成的科幻小说《破晓之钟》,这本书里包含了一位 AI 研究者对未来世界的推演,我们就以这本书为线索,聊聊未来的 AI 和我们的生活。先请田老师简单做个自我介绍。

田渊栋:我是田渊栋,在 Meta 已经十年多了,目前在 Meta GenAI 担任总监,带领团队做一些大模型推理相关的工作。

业余方面,我从 2005-2006 年开始接触网络小说,并尝试自己创作。一开始写得不算好,后来慢慢有了些心得。《破晓之钟》是 2020 年开始连载的,其实连载前我已经攒了大量存稿。当时虽然有构思和片段,但总觉得没有连载的压力,这小说可能永远都完不了稿,于是在 2020 年的某一天宣布要连载小说,这样一来有了线上的压力,每天就得逼自己写出一章。就这么坚持了 3-4 个月,总算把小说连载完了。

大概在 2022-2023 年,电子工业出版社联系到我,说对出版这部小说很感兴趣。一开始我挺惊讶的,不过后来想想,既然出版社主动联系我,也是希望这部小说有个圆满的结局,所以最后同意了。最终在 2024 年 6 月,这本书正式出版。

现在《破晓之钟》豆瓣评分 7.9,虽然不是特别优秀,也算是值得一读的水平。作为业余爱好,这个成绩已经超出我的预期,非常感谢读者们的支持。

晚点:能讲讲《破晓之钟》的大概故事情节吗?

田渊栋:这部小说的主题,是想探讨人工智能时代的科学幻想。

其实每个时代都有独特的科学幻想:蒸汽时代,人们幻想开飞机探索远方;电气、机械时代,人们幻想像凡尔纳笔下的《海底两万里》那样,驾驶金属潜艇潜入深海,或者用金属炮桶将人射向月球探索。这些都反映了当时科技生产力水平下,人们对科幻的思考和表达方式。

在人工智能时代之前,人们对 AI 就有诸多幻想——如果未来有机器比人类更聪明、更厉害,社会是什么样子?这种幻想在 1959 年、1969 年第一波人工智能浪潮时就已经出现了,当时人们认为可以用计算机模拟人脑,甚至让机器达到或超越人类水平,由此衍生出大量关于机器人形态的想象。但这些想象往往比较刻板,比如塑造了 “计算精确但缺乏情感” 的刻板机器人形象,或者充斥着 “机器人永远无法超越人类” 的论调。直到 ChatGPT 问世,我们被卷入生成式人工智能浪潮后,再回看 50 年代、60 年代的那些幻想,会发现它们其实存在不少偏颇。

我写这本小说时,生成式 AI 还未真正出现,正值前一波 AI 浪潮退去后的平台期。当时我就在想,如果 AI 发展到极致会催生怎样的故事?这本小说也糅合了我读博时的感悟,把少年时 “弱者想要翻盘” 的热血心态和中年大叔 “该躺平还是不甘寂寞去尝试新事物” 的纠结融合在一起。总的来说,情节框架比较 “老套”,核心思路很简单——外星人非暴力入侵,以 “完美虚拟生活” 诱惑人类,一群研究者该如何寻找出路。

晚点:能不能完整讲讲,你在故事情节里具体用了哪些来自 AI 技术的思维设计?

田渊栋:小说中 “立方” 的设定与近期 AI 进展特别吻合。我创作时是 2020-2021 年,那时候大家虽然用英伟达的卡,但没人真的用它搭建大型训练集群,而 “立方” 这个抽象概念就是对英伟达 GPU 的影射,当时的设定是:立方之间通过高带宽互联,协同计算就能产生超级智能。

现实中,2023-2024 年之后 GPU 之间确实可以通过类似 NVLink 的技术连接。正是有了这种快速互联方式,训练效率才得以大幅提升,但如果互联速度不够快,就会限制整个集群的训练速度和达成的超级智能程度,破解的方法是通过某种方式压缩两个立方之间的通信带宽。这跟 “银河联盟” 在这部小说里面用的方案是一样的,所以很多时候研究思路和科幻思路是有一致性的。

晚点:你当时设定 “临界立方”,心里想的就是英伟达的 GPU 吗?

田渊栋:肯定是有关系的。能看到 2022 年的时候对 GPU 的需求是很大的,当时也有将 GPU 连接成巨大集群进行训练,但并没有想过,通过训练我们可以得到类似大语言模型这样一些非常强的模型,也没有预见到训练效果能在短时间内达到那么好的效果,所以我是把这个设想当作科幻点子写进小说。

晚点:两年后科幻照进现实。

田渊栋:所以科幻小说还是得趁早写,不然点子可能就过时了,因为别人很快就把它实现了。

晚点:我们可以分两部分展开聊聊:第一部分主要聊聊 AI 和未来,第二部分可能更多是对很多年轻研究者的启发。

读《破晓之钟》时,我注意到小说里的未来世界有个很重要的设定 —— 人类面临两种选择,分成了两派:一派进入外星人设置的虚拟世界,生活安稳却可能不再有科学进步;另一派则反抗银河联盟强加的 “安乐世界”,试图自主探索宇宙发展空间。你当时设计这个核心情节是怎么考虑的?这算是小说的出发点之一吗?

田渊栋:小说里冲突肯定是必要的,不然故事就没看点了。

我时常在想,AI 时代人类可能面临一个终极选择:进入虚拟世界 or 拥抱未知星海。小说里的答案是两者的结合——一方面,人类最终进入虚拟世界是大概率事件,毕竟人类的肉体太脆弱了,比如把宇航员送入太空需要大量能量,还要解决饮食起居、生命维持等各种问题,这对星际航行来说是巨大的负担。而且百年之后,肉体必然会衰老腐朽,追求永生或许不得不依赖虚拟世界,这几乎是不可避免的趋势;另一方面,即便进入虚拟世界,人类的求知欲和对未来的探索欲望不会消失,我们可能还是会带着 “虚拟形态” 继续星际流浪。我觉得这两条路不是对立的,而是相辅相成,这可能是人类走出太阳系的唯一可行方案。

这里面会带来各种问题,比如可能在虚拟世界里突然发现毕生追求的东西都唾手可得,要多少钱有多少钱、想要海景房马上就有一栋,如果虚拟世界里日常或现实中的所有欲望都变得轻而易举,怎么让未来世界还有动力继续前进?这可能是第二部会写的主题。

晚点:小说后面也提到,虚拟世界里也有经济系统甚至房价对吧?

田渊栋:最初打造的虚拟世界是第一版,也就是临界 1.0 版。这个版本里所有人的欲望都能被满足,但后来大家发现了这个版本的问题:里面的人根本不在乎地球安危,对他们来说地球就像遥不可及的梦,因为生活太舒适了,这也导致他们对母星以及虚拟世界的物质基础没有深刻理解。比如说让临界的人、虚拟世界人和现实世界的人投票决定是否加入银河联盟,你觉得临界的人会怎么选?仔细想想,其实他们更愿意直接加入银河联盟,而不是维护母星的独立性。所以有人会觉得临界 1.0 版本的质量不是特别好。

那故事最后其实是倒退到了临界 1.5 版本,这个版本里房子、物品不是完全免费赠送,可能需要回归现实中的经济系统,让大家有动力继续努力。但这个版本也不完美,因为版本本身不太稳定,所以第二部应该会探讨它的弱点,以及探讨有没有更好的方案。在新系统中,什么样的经济系统是稳定的?大家最终会以什么方式在虚拟世界中生活,同时爆发出各自的创造力?这是个很有意思的话题。

晚点:小说结尾人类真的逃离灵界虚拟世界了吗?

田渊栋:这其实是个藏得很深的 “坑”,会在第二部解答。表面上看仍处于银河联盟的控制下,但这种控制不像虚拟世界那样的完全控制。一方面体现了银河联盟科技含量很高,有很多想象不到的黑科技,暗中掌控着一切;另一方面也引出他们的目的——为什么要千里迢迢对偏远行星的文明动手?

假设我们处在第四银河系第三悬臂的某个荒芜角落,好比宇宙中一个荒芜、跟中心毫无关联的小村庄,为什么银河联盟偏偏对我们感兴趣?这背后其实涉及对银河联盟动机的深层解读:如果某个文明的实力不强,他们可以直接不管;要是文明比较强,银河联盟可能会像小说里那样说 “希望你们加入我们”,还会发个通告宣布 “你们现在是 A 级文明,我们荣幸地拉你们入伙”;但要是当地文明更强,银河联盟就会感到威胁。那面对威胁他们会怎么处理?又会怎么对待这些文明?

如果要剧透一下的话,银河联盟最终想要的其实是 “独一无二”。作为一个已经实现 “所思即所得”的高级文明,他们反而在思考:自己走的是不是发展的最优路径?毕竟哪怕是这样的高等文明,他们也担心思路陷入 “死胡同”。要是偏远地区有新文明同样具备 “所思即所得” 的能力,还能提出全新的思路和见解,这些想法通过能力瞬间变成现实,就可能形成一套比银河联盟更强大的体系,甚至取代他们。

在这种情况下,银河联盟其实很希望在银河系的各个角落寻找新生文明,看看这些文明有没有能被自己吸纳的新思路、新想法,同时还要将其置于控制之下 —— 我觉得这可能是银河联盟的最大目的。当地球处于这样的位置时,他们就得小心对待了:一方面,想把地球保留下来,因为这里可能有银河联盟没有的先进思路,就像设立 “思维野外保护地”,不希望用自己的想法污染它,否则这块 “地” 就失去价值了,毕竟一旦思维被同化,新想法就无从产生;但另一方面,又不希望这块 “地” 发展得太厉害,担心其借助银河联盟的科技将独特思路具象化。所以这其实是一种非常矛盾的状态,也就解释了为什么第一部结局会是那样的结果。

晚点:你觉得的科技有可能达到 “所思即所得” 的状态吗?如果到了这个状态之后,可能会面临的大危机是什么?

田渊栋:首先从科技发展来看,技术终会发展到 “所思即所得”,虽然不知道具体什么时候能实现,毕竟还有不少技术限制需要突破。

回顾过去 400 年科技史,很多时候都是把难题转化为简单问题,最终让其变得像水和空气一样唾手可得,这个过程一直在发生。比如手机,当年 ENIAC 计算机是用来算弹道、做高端科学计算的,现在手机芯片的速度比原来的晶体管快几百万倍,却能用来玩游戏、刷网页 —— 这就是把高大上的技术平民化,最终变成日常所需。中间很多技术难题被绕过,思路直接和结果结合,这种迭代一直在发生。

另一个典型的例子,现在大模型能写代码、直接运行甚至管理团队,这在以前也是不可想象。以前做个网页或商务对接,得招十人团队,老板牵头写计划、分解任务、 coding、测试、上线,现在全被大模型压缩成自动化流程 —— 让 AI 代理处理很多细活,直接写完代码、上线使用。整个过程其实很相似:把繁杂的大任务通过自动化不断缩短、简化,最终让普通人也能完成。这个趋势一直存在,我相信以后只会更深入,最终实现 “所思即所得”。

晚点:你刚才提到一个问题:随着计算和 AI 技术的发展,人类未来是进入虚拟世界,还是成为一个信息文明。你很早就开始思考这个问题,最初的起点是什么?而且现在看来,这个问题可能越来越现实了,您觉得现实中人类实际会怎么选?

田渊栋:这个问题包含两个层次:一是我为什么会思考这个问题,二是现实生活中人类会如何选择。

首先,我本身就是一个特别喜欢思考的人,脑子里经常会冒出一些有意思、奇怪的想法——未来 AI 会不会取代人类?为什么人类总被认为具有某种天生的 “先进性”?而且这种 “先进性” 其实从未被科学定理证实或证伪。带着这种疑问,我就想如果有一天发现人类并不特殊,我们该怎么办?通过这个方式去思考世界或者 AI 会怎么样发展。

晚点:这个思考是从 2008 年左右开始的吗?因为你 2008 年开始读研究生,后来读博时正式进入人工智能领域。

田渊栋:可能更早。2005-2008 年我在上海交通大学读硕士时,加入了张丽清老师的脑机接口实验室,研究大脑在不同刺激和任务下的运作机制。当时我就觉得很有意思,人的大脑为什么这么神奇?这算是最初的出发点。当然不一定非要通过研究大脑来理解智能,从数学和第一性原理出发,也许会有更好、更清晰的思路。而且我一直觉得,现在 AI 的能力远没到上限,我们用的算法还很 “笨”,这也是我持续探索的一大动力。

另一个问题,现实中人类会不会走上与 AI 结合、进入虚拟世界的路径?我觉得这肯定是可能的。其实我们已经一只脚踏进虚拟世界了,现在大家基本 24 小时手机不离身,各种信息不断涌进来,里面有海量信息、讨论和情绪,大家也在慢慢适应。虽然总有人说人类要和机器划清界限,但界限早就没那么清晰了。举个例子,比如用了某个特殊电子元件、APP 或芯片能让成绩提高 20%,不用的人就会落后,这种效应会让大家拼命去用这些东西,最后慢慢形成融合。这种融合会以自然的方式发生,不会像小说里那样因为外星人的外部压力才被迫进入虚拟世界。

晚点:经历这个融合过程后,一方面确实如你所说,这种趋势不可避免,但另一方面也肯定会带来新问题。我在小说里注意到你探讨过这样一个情节:一个三流画家总是自怨自艾,觉得自己怎么都比不上身为一流画家的朋友。刚开始看到这部分时,我觉得非常莫名其妙,因为前面已经讲了那么多剧情,结果在小说最后的部分突然冒出个新角色,但看到后面才明白设置这个人物的用意。

因为人类的大工程故意把虚拟世界(临界)的时间节奏调得比真实物理世界快很多,所以在现实中很短的时间里,像三流画家这样身处虚拟世界的人,经历了漫长的人生。他们慢慢会觉得,长期待在虚拟世界里其实空虚又残酷,这样两派不同的人(虚拟世界里人和真实世界的人)才能达成共识,去一起反抗银河联盟。你可以讲讲,人和机器世界融合、界限变得更模糊之后,会带来那些问题?

田渊栋:对,这部分其实是特意单独作为一章写进去的。一方面想通过这个情节让读者知道人类是怎么翻盘的,另一方面也是想探讨,如果虚拟世界真的全面铺开,大家会产生什么样的想法和思路。

我觉得这种融合短期内肯定会暴露很多问题。首先是短期的冲击,AI 的普及后可能会给世界带来很大变化 —— 很多人会发现自己赖以生存的工作可能被 AI 取代,这会让人产生强烈的空虚感。有人可能突然觉得 “既然不费力气就能获得以前一辈子都得不到的东西,那我何必再干活”;也有人会觉得 “反正我做得再好也不如 AI,干脆破罐子破摔”。这种心态带来的冲击是短期内的大问题,现在还不清楚该怎么解决。

到了中期,可能会出现 “卷新赛道” 的情况。当大家意识到传统工作做不了了,就会往 “求新、搞怪、博眼球” 的方向挤,试图通过打造独一无二的个人标签证明自己的价值。但这个过程其实挺痛苦的 —— 很多人会觉得自己根本没天赋,却不得不硬着头皮卷这些新领域。

不过从长远看,还是比较乐观的。因为人类社会原本的固定模式:上学→受教育→工作→赚钱养家→养育下一代→继续循环。但如果未来大部分人发现,自己辛辛苦苦练的技能在 AI 面前根本没竞争力,可能就会跳出这个模式。毕竟谁不想做自己真正喜欢的事呢?我见过很多朋友,他们业余时间画画、写小说、唱歌,但这些只能是业余活动,因为他们还是得靠写代码之类的工作赚钱买房、买车、养孩子,这种生存压力其实压抑了人的天性。如果有一天,大家能毫无负担地去做真正热爱的事,不用在意收入多少、社会地位如何,可能会迎来一个 “职业多样化爆发期”,人们也会发现这样活得比以前更开心。我觉得大致会经历这几个阶段,但中间会有多少波折就很难说了。

晚点:你现在有观察到你说的第一个阶段或第二个阶段的情况吗?因为从 23、24 年到现在,AI 发展确实很快,包括 coding、写作这些领域都有很多进展,可能对程序员、文案工作者这类人会有影响。

田渊栋:应该说冲击挺大的。比如文案工作者可能会觉得 ChatGPT 写的东西比自己好,或者习惯先用 ChatGPT 写再自己润色,这和以前的工作流程有很大差别。随着 AI 越来越强、用起来越来越方便,我觉得未来 2 到 3 年可能会有更多人受到波及,很多行业都会发生较大变化。不过这些变化可能对 AI 研究员来说不算明显,但 AI 会慢慢下沉到各个领域的细分方向,改变很多人的具体工作流程。这个过程是滞后的,但 AI 确实在潜移默化中改变着世界和社会的运作方式。

晚点:你觉得科研这类工作什么时候可能会被 AI 大规模取代?其实现在很多人,包括 AI 研究员自己,都希望 AI 能做科研。

田渊栋:目前来看,一些简单的科研操作其实已经可以实现了,比如查文献、收集资料,DeepResearch 这类工具就做得还不错。但要说深层推理能力,现在的 AI 还做不到,它现在处于一种 “外行看很内行,内行看很外行” 的状态。

这意味着研究员还是有事情可以做的,因为他们对世界有深刻理解,而且这种理解会随着经验和研究的深入越来越深,其理解的速度其实超过了大模型的学习速度,这是 AI 研究员目前的优势。现在大语言模型还是有个问题——数据复杂度太高。比如学东西需要大量样本,可能得几千上万个才能学会。但顶级研究员可能看一两个样本就能发现问题,联想到某个细微却关键的影响因素,而且这个因素往往是正确的,正因为有这种能力,人类研究员目前还能站在大模型前面。在大语言模型的训练算法改进之前,这个问题可能还是很难解决,毕竟现在还是依赖数据训练的模式。

晚点:你觉得这事会很快发生吗?

田渊栋:我没有那么乐观,可能还需要 10-20 年的时间。

晚点:读这本书时,我感觉里面的博士生生活特别艰苦,尤其是最早出现的大师兄孟天峰这个角色 —— 他要在赚钱养家和继续科研之间做艰难选择。但这好像和我理解的近几年 AI 领域的现实不太一样。我想问下,你书中描述的博士生生活有什么原型吗?是因为你更早进入这个领域,当时行业还比较冷,所以你们当时确实过得挺艰苦?还是有故事性的加工?

田渊栋:2008 年前后 AI 确实没那么热,我毕业那年才真正开始发展起来。当时大家都在摸索 “记忆学习” 这个方向,但它到底有没有用、有没有效果,其实业内都存疑。我记得有个师兄跟我说:“你别做机器学习,这东西肯定不行,不如做点更接地气的。” 当时我的博士生导师也不赞同搞机器学习,他做的是基于物理的图像识别和分析,在他看来,物理公式才是 “真实且确定” 的,用正确的公式能算出正确的答案。他甚至跟我说,他觉得他的世界里没有概率,只有确定性,物理公式写出来是对的就是对的,错的就是错的。

当然他也没反对我往机器学习方向发展,后来变成我专注研究技术突破,而他则帮我提升演讲和表达能力,交流能力有些提高。

晚点:你在卡耐基梅隆读博时,组里只有你一个人做机器学习吗?

田渊栋:对,其他师兄师姐都在做偏物理建模和视觉分析的方向。

晚点:可以讲讲你是怎么度过那个领域看起来 “前途未卜” 阶段的。

田渊栋:主要是因为喜欢吧。因为我是个 “内心驱动” 的人,不太在乎外界的看法。以前我特别内向,不太爱说话,还有口吃的毛病,一上台就紧张得卡壳。但在学习的过程中,我慢慢发现,只要是自己特别喜欢的东西,就会不自觉地把自信发挥出来。

晚点:你书里写了两类研究者,我觉得这代表了两种做学术的思路。一类以风希云和林拂羽为代表,他们执着于做颠覆性但高风险的未知研究,这类研究可能长期看不到成果,对普通博士生来说甚至可能搭进去整个青春。而在小说里人类面临危机时,他们的选择更是可能直接关系到人类命运;另一类是罗老板手下的孟天峰,他倾向于用有限资源做小而实用的技术改进,追求快速落地的应用价值。

当然我觉得这两类角色在小说里都很有魅力,没有绝对的对错之分。你可以讲讲当时为什么设置这两类角色?

田渊栋:我觉得这两类人都很重要。像孟天峰这个角色,他更在意别人的看法,特别想让别人开心。最后一章他牺牲时,也是为了弥合不同见解的人的分歧,因为他内心有这样的动力,所以肯定更愿意做偏应用的研究;另一类像风希云和林拂羽,他们的驱动力更多来自内心,想把事情做到极致,不太在意别人的评价,所以更愿意挑战别人做不出的事,就会去冒险、去赌。两类人的驱动力不同,结果也不一样。

不过驱动力得结合能力来看,要是能力不够强,驱动力却很强,可能会导致悲剧性的结果。风希云就是这样的角色——驱动力很强但能力有限,这就导致他长期得不到正向反馈。打个比方,就像资质平平的博士生,一心想发表震撼世界的成果,可多年都达不成目标,就会陷入郁闷,甚至可能做出极端或冒险的举动。

所以我觉得从社会角度来说,这两类人都不可或缺。就像 OpenAI,它能做出 ChatGPT 这样影响世界的产品,既需要伊尔亚・苏茨克维奇这样指明方向的人,也需要很多研究员去搭建具体的数据和基础设施,只有这样,整个系统才能真正运转起来。

晚点:如果地球真像小说里那样处于极端情况下,你更认同应该把资源投入到哪种研究方向上?

田渊栋:这个很难说。因为在这种情况下,任何一个微小的信号或发现,都可能改变人类整体的研究思路,但这两类人最终可能会指向同一个目标 —— 拯救地球。怎么拯救地球?有人可能选择赌博、冒险,有人可能选择扎扎实实做那些简单却重要的具体工作,这两种方式其实是可以切换的。具体走哪条路,往往取决于每个人看到的线索和选择,危机之下,这两类人可能会合并。

晚点:两类人要协作、要共同利用有限资源,这就需要一个统筹角色。其实你书里就有这样的人物,就是他们共同的老板罗教授。一开始看罗教授,会觉得他有点官派作风,甚至像学阀,但看到后面会发现这个人挺有魅力 —— 他有大目标,也懂得用多种手段去达成。而你自己做技术 leader 多年,每年年终总结也会在知乎上分享带团队的思考,你觉得一个技术团队里好的 leader 应该做什么、不做什么?

田渊栋:我认为一个技术 leader 最重要的是能不能把方向把控好。比如整个团队要做什么、通过什么方式完成,每个人该做什么、长处在哪。然后能不能做到无为而治——不过多干涉,但最后能合力把事情做成,我觉得这可能是比较理想的状态。

晚点:你现在在 Meta 这么大的体系里,你们组选什么方向做是比较自由的吗?还是说整个组织会有一些压力给到不同的团队?

田渊栋:这得看具体所处的环境。之前在 FAIR 的时候,环境还是比较自由的,我在组内具体方向的选择上有一定话语权,这是比较好的情况。在这种环境下大家都在做研究,而研究的前沿是无限的,所以发挥空间其实很大。关键在于,作为团队里定方向的人(比如 leader),得能确定一个让大家觉得有前途、有希望,并且愿意花时间和精力去完成的方向,我觉得这是很重要的。

最近我们从 FAIR 转到了 GenAI,整个大环境不一样了。在这种情况下,能否找到好的方向很关键:一方面要让大家有具体的工作可做,另一方面要指出别人没看到的方向,让团队成员觉得跟着 leader 往前走是有前途的,这其实是一种很重要的能力。

晚点:在知乎的年度总结里,我发现一个跟你角色相关的变化: 2021 年你说首要任务不是埋头苦干,重要的是看方向;到了 2024 年,你又提到要更多 hands-on。能讲讲这个转变吗?这个转变是不是和 ChatGPT 出现后生成式 AI 加速变化有关?

田渊栋:有个成语叫 “看山是山,看山不是山,看山还是山”。对我来说,职业生涯也有类似的阶段变化。

比如一开始,作为一个 individual contributor(普通执行者),说白了就是个大头兵,我的目标就是把一件事做好。但如果想成长为 leader(管理者),就不能只盯着手头的工作,得把眼光放长远,对整个团队的方向要有把控力。这时候就不能纠结于某个技术细节,得往外看、往远看,站在更高的层面去统筹全局。这是第一个飞跃,这个飞跃其实挺难实现的。因为很多人只想把手里的事做好,不想管太多,这样就很难完成这个跨越。完成第一个阶段的飞跃后,我对整个团队的情况有了更清晰的认知,相应地,在战略思考上也有了更明确的方向。这时我已经成为一名具备基础管理能力的 manager(经理),开始负责带领团队、统筹事务。那段时间我在博客里写的内容可能变成:“首要任务不是埋头苦干,我得总结一下过去的弯路,同时思考大方向和整体格局”。 这是从 1(执行者)到 2(管理者)的转变。接下来是 2 到 3 的转变。当你更多扮演管理者角色、需要把控大方向时,往往会慢慢失去对技术细节的掌控力,这其实是个很难平衡的点。很多大厂里常见这种情况:有些人当上经理后,就不再关心下属具体做什么,觉得只要每天报告写得漂亮、项目文档齐全,能向上级交代就行。但生成式 AI 的出现,让这种模式受到了挑战。比如 OpenAI 这类顶尖 lab,他们的管理者都懂技术、会写代码,对技术保持极高的敏感度。这样的团队不仅产出效率高,沟通也更顺畅,和传统大厂 “上层管理 + 下层执行” 的模式相比,这种(管理者懂技术的)团队其实战斗力更强。

现在随着生成式 AI 的兴起,大家都在往这个新方向调整 —— 希望管理层(经理、总监)具备技术能力。这种能力能让团队协作效率更高、沟通更顺畅,避免出现 “一人干活、众人围观” 的尴尬局面,这是一个很大的转变。另一方面你会发现,未来一个人加 AI 工具的战斗力,可能比一个小团队还强。这种情况下,核心人员对技术的敏感度和专业深度,要远远超过传统大厂里那些偏重人事管理的经理,这也是一个关键变化。

现在的趋势是,借助 AI,研发团队可以更小、更精悍。团队里每个人,尤其是核心成员,对技术能力的要求越来越高。只有这样,才能快速抓住问题的关键,并且迅速执行落地,而不是把时间浪费在没完没了的沟通和扯皮上。这种转变在最近一两年变得非常明显,这也是为什么很多小公司的执行速度比大公司快得多的主要原因。所以我们肯定也要往这个方向调整。

晚点:外界分析 DeepSeek 时也提到过类似特点,比如创始人梁文锋会参与一线工作。

田渊栋:对,听说要是手下人不拦着,他甚至会亲自写代码。比如 OpenAI 的 o1-preview 发布后,他很快就捕捉到了这个方向的价值,我觉得这一点特别关键。技术 leader 对前沿技术保持敏感的话,整个团队的转向和集中力会非常强大,这对整个团队的转向速度和产出效率都会快很多。

晚点:敏感性表现在什么地方?

田渊栋:体现在比较细的认知。比如对推理模型的成熟度、局限性、适用场景,以及哪些问题能通过模型优化做得更好,他都有很深的思考。

晚点:在当前技术范式下,能不能实现更高层次的智能,比如具备发现知识和规律的智能?

田渊栋:我觉得主要还是看在现有技术范式下,怎么做才能最大程度挖掘模型的潜力。相比之下,更实际也更能落地的方向可能是:探索现有模型还有哪些没有被激发的能力。

晚点:你现在保持技术敏感性的方法是什么?

田渊栋:经常读文章、看代码、甚至有些时候会自己写,这个都是比较重要的。

晚点:我知道你现在会用 AI 辅助创作,《破晓之钟》是 20 年开始写、21 年完成的,那时候是完全是手写,没借助任何大模型。后来你也分享过,写续作《幽夜星火》时尝试用模型辅助,能聊聊这些体验吗?

田渊栋:从体验上来说,我目前的初步感受是现在的模型还没那么完善。主要问题在于,模型的训练目标很单一,它主要是通过分析人类输入的数据,尽量准确预测下一个字符或 token(也就是模仿人类的写作逻辑)。这种简单的目标函数,导致模型训练完后,能力完全被数据和训练框架限制住了。因为它的核心就是模仿别人的写法,所以很难产出新意。具体来说,你让它写故事一段故事,结局往往会收敛到 “王子和公主的幸福结局”,或者说 “从此之后地球又和平了” 这类很泛的剧情,很难让它构思极端情境下的新奇走向,这是我觉得很明显的一个问题。

模型写前 500 字或前 1000 字时,人物互动还挺有意思的,但越往后写,就失去了互动的意义,最后往往会收敛到平凡的、无聊的结尾。这里面有多重原因:一方面,模型的设计初衷是服务人类,所以必须符合人类价值观,这就导致很多突破性的内容它写不出来;另一方面,模型本身的长文本能力还有限,写长内容时容易忘记前面的设定,只能回到简单、单一的框架里。

晚点:你觉得不同模型在表现上有什么区别?比如 4o、Cloud、Gemini、Llama,还有春节时我看你发朋友圈说试过 DeepSeek 的文本创作能力。

田渊栋:

DeepSeek 适合 “脑洞”,用来写小说 “很麻烦”,因为它逻辑性不够强,有很多想象很莫名其妙,脑洞太大反而导致很多内容没根据,对写小说的人来说挺麻烦的。Cloud 给我的感觉是训练方式和其他模型不太一样,我觉得它里面应该加了很多合成数据,写出来的东西逻辑和分析性比较强。比如给它一段包含一个主角和若干配角的文字,其他模型只会围绕主角写故事,但 Cloud 3.5(Cloud 3.7 还没试)至少会分析角色关系,写出他们之间可能的互动—— 其他模型对配角的感知能力没这么强。4o 表现比较平淡,情节发展中规中矩,最后容易得出无聊的结局。Gemini 我用过 2.0 版本,感觉它笔触比较细腻,会描写环境、人物位置和动作,比其他模型更注重细节。给定大纲后,让它写具体情节还是能写一点的,但整体感觉还是偏平淡,我还是希望有一些精彩的转折,还是得人去思考。

总的来说,现在的模型还没那么强大,但比一年前强大的多。

晚点:如果要完整总结一下,你现在摸索出的用 AI 辅助写小说的工作流是怎样的?你刚才提到一点,在给定大纲的情况下,Gemini 2.0 能写一些具体情节。

田渊栋:我的流程一般是这样的:先有一个核心想法,然后用 AI 细化成大纲,接着把大纲进一步拆分,再让 AI 针对每个大纲片段写具体情节。只要保证大纲结构完整、人物关系自然、一致,最终写出来的情节不会太差,至少能形成一个勉强能看的粗糙作品。但如果仔细读细节,就会发现描述不够到位,人物描写同质化,或者前面提到的细微情节后面就被忽略了,这些问题目前还不太好解决。

晚点:你细化大纲也是用 Gemini 做吗?

田渊栋:大纲还是得人来写。

晚点:你试过用模型生成小说大纲,但效果都不太理想,对吧?

田渊栋:因为它们很容易陷入套路。比如写 “外星入侵地球” 的大纲,模型大概率会输出 “外星人攻击地球,人类濒临灭绝,有个英雄出现拯救世界,最后获得和平” 这种烂大街的剧情。但作为小说家,肯定不希望故事按这种套路写,至少得加点更有个人风格的东西,或者更大的波折进去。小说家挑剔的是什么?就是只要是 AI 生成过的内容,就不想写成那样。

晚点:你现在用 AI 辅助写小说时,它会怎么影响你的写作状态?比如,是让你更有沉浸感、更专注,还是会打断思路?

田渊栋:会打断。很多时候,如果遇到一段特别想自己写的内容,不想被 AI 干扰,我就会完全自己动笔,不让 AI 介入。写完这段后,我会把它标记为 “保留内容”,只让 AI 做简单润色。而对于没时间详细写的部分,我会空出待填充的段落,让 AI 识别需要填充的部分并生成内容。通过这种方式可以 “人机协作”,但需要写个程序来实现。

晚点:所以你是自己做了个小工具来用吗?

田渊栋:对,我做了不少这样的小工具。

晚点:它其实是一个支持 AI 和人类协作的写作软件,我可以这么理解吧?

田渊栋:对。但是这东西变化也很快,说不定你哪天换个想法就得重新写一套。

晚点:你做这个工具是自己敲代码,还是让 AI 帮忙编了部分程序?

田渊栋:当然是让 AI 帮忙了。

晚点:比如说 Cursor 这类工具是吗?

田渊栋:对,我是 Cursor 的订阅用户,一个月 20 美金。

晚点:所以现在 AI 已经渗入很多环节 —— 先用 AI 辅助编程做写作软件,再用这个软件调用模型和人一起写小说。

田渊栋:这肯定是目前的最优解了,暂时也想不到更好的办法。但具体怎么调用、怎么把人机写作结合起来,还有很多问题需要解决。

晚点:你觉得未来五年,什么样的写作会被 AI 替代,什么样的不会?

田渊栋:我觉得,人类独一无二的经验是 AI 无法取代的部分。因为 AI 需要依赖新知识来训练,如果是它目前无法创造或生成的新知识,那么人类独有的这些新信息,就会成为 AI 最需要的资源,甚至是最有价值的信号。

这可能会成为人类探索星海的原动力:假设真的变成这样一个社会,可能有人会说 “我想去月球”“我想登陆火星”,这些知识是 AI 数据库里从来没有的。但像公文、函件、法律条文这类程序性写作,本身不需要太多创意,可能会被 AI 的标准化模式取代。

来源:晚点LatePost

相关推荐