OpenAI首席架构师和科学家专访:关于GPT-5、自动化研究与未来图景 | 附全文+视频

B站影视 内地电影 2025-09-26 16:27 1

摘要:为了揭示其最新旗舰模型GPT-5背后的战略思考,以及支撑其持续创新的独特研究文化,OpenAI的两位核心大脑——首席科学家雅各布·帕乔基(Jakub Pachocki)与首席研究官马克·陈(Mark Chen),接受了 a16z 的普通合伙人 Anjney M

天空之城| 城主

为了揭示其最新旗舰模型GPT-5背后的战略思考,以及支撑其持续创新的独特研究文化,OpenAI的两位核心大脑——首席科学家雅各布·帕乔基(Jakub Pachocki)与首席研究官马克·陈(Mark Chen),接受了 a16z 的普通合伙人 Anjney Midha 和 Sarah Wang最新独家访谈。

在这场对话中,帕乔基和陈不仅阐述了GPT-5致力于将“推理”能力主流化的核心使命,更首次系统性地披露了OpenAI的终极研究目标——创造一个“自动化的研究员”,以实现科学发现的自动化。他们坦诚地探讨了传统评估基准饱和后的新挑战,分享了OpenAI在人才招聘、组织文化建设以及平衡基础研究与产品开发方面的独特策略。

核心观点:

在过OpenAI的模型矩阵中存在一种用户体验上的割裂:以GPT-4为代表的“即时响应”模型,和以O系列为代表的“长时思考”模型。而GPT-5的诞生,正是为了终结这种分裂,将强大的“推理”能力作为一项默认配置,提供给所有用户。

马克·陈解释了这一战略背后的思考:“在策略上,我们不希望我们的用户对,我应该使用哪种模式感到困惑?……我们认为未来是关于越来越多地推理,越来越多地关于智能代理。而且,我们认为GPT-5是朝着默认提供推理和更具代理行为能力的方向迈出的一步。”

这意味着,GPT-5不仅仅是性能的线性提升,更是一次产品哲学的根本性转变。它旨在智能地判断用户请求所需的“思考量”,从而无缝地融合快速回复与深度推理,让强大的代理行为能力成为AI服务的基础设施,而非一个需要用户手动选择的高级选项。雅各布·帕乔基补充道,“相对于O3,以及我们之前的模型,这个模型在各个方面也有许多改进。但是我们主要的,这次发布的论点确实是将推理带给更多的人。”

在内部测试中,GPT-5的能力已经让专业领域的顶尖人才感到惊讶。马克·陈分享道:“我们会让模型和我们的一些朋友一起尝试,他们是专业的物理学家或专业的数学家……他们尝试GPT-5 Pro,然后说,哇,这是之前的模型版本无法做到的。这对他们来说是一个灵光一闪的时刻。”

超越饱和基准:衡量“真实发现”的新标尺

随着模型能力的指数级增长,一个严峻的问题摆在了所有AI研究者面前:传统的评估基准正在迅速饱和。当模型在各项测试中的得分从98%提升到99%时,这种微小的增益已不再能真实反映其能力的本质飞跃。

帕乔基坦言,OpenAI正面临“伟大评估的赤字”。他指出,随着强化学习等新训练方法的引入,模型可以在特定领域达到极高的专业水平,但这并不总能泛化到其他任务。因此,评估体系必须进化。

未来的评估重心将从标准测试转向衡量模型在真实世界中的“发现”能力。帕乔基明确表示:“我认为我们关注的重点是模型能够发现新事物的实际标志。我认为对我来说,今年最令人兴奋的趋势,以及实际的进步迹象,是我们的模型在数学和编程竞赛中的表现……我们正在关注的下一组评估和里程碑将涉及实际的,发现,以及实际的,在经济上相关的……事情的进展。”

马克·陈对此表示赞同,他认为像国际数学奥林匹克(IMO)、AtCoder编程竞赛等,是“未来研究成功的真实世界指标”,因为世界上许多顶尖的研究人员都曾在这些竞赛中崭露头角。让模型在这些领域取得突破,是通往真正创新的必经之路。

终极研究目标:打造“自动化的研究员”

在访谈中,帕乔基首次系统性地揭示了OpenAI研究项目的“终极目标状态”,一个贯穿其所有研究工作的宏大愿景。

“因此,我们研究的主要目标是生产,一个自动化的研究员。因此,自动化新想法的发现。”他解释说,这个目标的一个具体体现,就是自动化机器学习研究本身,但这可能会显得过于“自我参照”。因此,他们也正在积极探索如何自动化其他科学领域的进展,例如物理学、数学等。

衡量这一进展的关键指标,是模型能够独立思考和解决问题的时间跨度。帕-乔-基认为,当前模型在编程竞赛等领域的表现,相当于“大约1到5个小时的推理程度”。而OpenAI的下一个核心研究方向,就是“扩展这个时间范围,包括模型在非常长的时间范围内进行规划的能力,以及实际保留记忆的能力。” 这意味着,未来的AI不仅要更聪明,更要具备长期的专注力、记忆力和项目管理能力,才能从解决“习题”真正跨越到进行“研究”。

OpenAI的研究文化:保护基础研究与招聘“穴居人”

要实现如此宏大的目标,离不开一个独特的、能够抵御外界噪音的研究文化。在当今AI领域竞争白热化的背景下,各大实验室很容易陷入追赶彼此最新发布的短期竞赛中。而OpenAI的领导者们,则将“保护基础研究”视为其文化的核心。

马克·陈强调:“我认为实际上最重要的是确保你保护基础研究……你不能让他们被拉向所有这些不同的产品方向。”帕乔基也补充道,他们的工作很大一部分是确保研究人员有足够的空间和舒适感去思考“一年或两年后事情实际上会是什么样子?”,而不是仅仅在当前范式中进行迭代改进。这种对长远目标的坚定信念,使得OpenAI能够持续在前沿领域进行创新。

“我们真的不喜欢抄袭,”帕乔基说,“我认为人们会受到这个使命的鼓舞,你们实际上是在发现关于深度学习堆栈的新事物。”

在人才招聘方面,OpenAI同样有着与众不同的标准。他们不只关注那些在社交媒体上声名显赫或发表了引人注目论文的研究者,而是更倾向于寻找那些能够解决难题的“穴居人(cave dwellers)”——即那些在幕后默默进行深度工作的人。帕乔基解释说:“我们寻找的一个东西是,在任何领域都解决过难题。我们很多最成功的研究人员,他们的深度学习之旅始于OpenAI,并且在其他领域工作过,比如,物理学,或者……金融。” 扎实的技术基础、挑战雄心勃勃问题的渴望,以及最重要的——坚持(persistence),是OpenAI最看重的品质。

编码新范式:从竞技编程到“氛围编码”

作为两位曾经的竞技程序员,帕乔基和陈对AI编码模型的发展感触尤深。他们坦言,如今的编码模型在很多方面已经超越了他们自身的能力,而这正在催生一种全新的编程范式。

马克·陈分享了一个有趣的观察:“上周末我和一些高中生聊天,他们说,实际上默认的编码方式是凭感觉编码(vibe coding)。”对于新一代的开发者来说,从头开始编写所有代码机制已经成为一个“奇怪的概念”,他们默认的工作流就是与AI进行高效协作。陈甚至憧憬道:“我确实认为,未来有希望会是氛围研究(vibe research)。”

尽管AI编码工具已经变得异常强大,但帕乔基认为,目前仍处于一个“恐怖谷(uncanny valley)”阶段。他解释说,虽然GPT-5已经能够“在15分钟内几乎完美地完成一个30个文件的重构”,你必须使用它,但它在交互体验上仍然不如一个真正的人类同事。因此,OpenAI的首要任务之一,就是带领编码工具走出这个恐怖谷,使其成为更无缝、更智能的合作伙伴。

不变的约束:算力、物理与研究的边界

在讨论AI未来的无限可能性时,两位科学家也不断强调那些“不变的约束”。对于近年来业界流传的“算力不再是瓶颈,数据才是”的说法,帕乔-基和陈都给出了坚决的否定。

“我并没有太相信‘我们将受到数据限制’的说法,”帕乔基说,“我不希望这种情况发生改变。” 马克·陈则用一句玩笑话强调了算力的极端稀缺性:“任何说那种话的人都应该来我的岗位上干一周。没有人会说,我拥有我需要的所有计算能力。”

除了算力,帕乔基认为,更底层的约束来自于物理世界。“我认为比算力更广泛的是物理约束,比如能源,而且在不远的将来,机器人技术将成为一个主要焦点。所以思考物理约束将仍然很重要。”

结语:信任是持续创新的驱动力

在访谈的最后,话题回到了一个更深层次的、关于人的问题上:是什么让OpenAI在达到如此规模后,依然能保持初创公司般的创新速度?马克·陈认为,秘诀在于其独特的科研文化,让身处其中的人永远不会感到“学习高原期”。“你每周都在学到很多东西……如果你产生的研究成果多到你几乎无法掌握它们,这几乎是一件好事。”

而这种文化的基石,则是核心团队之间深厚的信任。帕乔基和陈之间长达多年的默契合作与相互信赖,已经成为Open-AI内部文化的一种象征。正如历史上许多伟大的科学发现都诞生于一对紧密的合作者一样,他们的伙伴关系,或许正是驱动这个全球最顶尖AI实验室不断突破边界的、最人性化的引擎。

天空之城全文整理版 引言:GPT-5与研究文化

Jakub: 我们所针对的重大目标是制造一个自动化的研究员。因此,自动化新想法的发现,我们正在关注的下一组评估和里程碑将涉及在具有经济相关性的事物上的实际进展。

Mark Chen: 我在和一些高中生交谈,他们说,实际上默认的编码方式是氛围编码。我确实认为,未来有望是氛围研究。

Anjney: 感谢雅各布和马克的光临。雅各布,你是OpenAI的首席科学家。马克,你是OpenAI的首席研究官,你们都拥有运营可能是在人工智能领域最受瞩目的研究团队之一的特权和压力。所以我们非常兴奋,想和你们谈谈我们一直好奇的一系列事情,包括GPT 5,这是OpenAI最近发布的最令人兴奋的更新之一。然后退一步说,你们如何建立一个不仅能做GPT 5,还能做Codex和ChatGPT以及一个API业务的研究团队,并且可以将你们在各种模态、各种产品形态上的许多不同押注,编织成一个连贯的研究文化和故事。

那么,为了启动讨论,我们不如从GPT 5开始吧?从你们的角度,简单地谈谈GPT 5的发布,情况如何?

Mark Chen: 我认为GPT 5 确实是我们尝试将推理带入主流的一次努力。而且,在GPT 5之前,对吧,我们有两个不同的模型系列。你有,GPT类型的二、三、四系列,它们是这种即时响应模型。然后我们有一个O系列,它,本质上会思考很长时间,然后给你它能给出的最佳答案。所以在策略上,我们不希望我们的用户对,我应该使用哪种模式感到困惑?这涉及到大量的研究,以及确定对于任何特定提示来说,正确的思考量应该是什么样的,并且,消除用户这方面的痛苦。

所以我们认为未来是关于越来越多地推理,越来越多地关于智能代理。而且,我们认为GPT 5是朝着默认提供推理和更具代理行为能力的方向迈出的一步。

Jakub: 相对于O3,以及我们之前的模型,这个模型在各个方面也有许多改进。但是我们主要的,我们主要的,这次发布的论点确实是将推理带给更多的人。

评估的演进:从饱和基准到真实发现

Sara Wang: 你能多谈谈你们是如何看待评估的吗?我注意到即使在那个发布视频中,也有一些评估显示你的表现从,98%逐渐提升到99%,而这某种程度上表明,你已经饱和了评估。你们采取什么方法来衡量进展?你们又是如何看待这个问题的?

Jakub: 一件事是,确实对于像我们过去几年使用的这些评估来说,它们确实非常接近饱和。所以,比如,对它们中的很多来说,比如,从96%提升到98%不一定是,世界上最重要的事情。

我认为另一件可能更重要的事情,但当我们处于GPT-2、GPT-3、GPT-4时代时,它稍微有点微妙,有一种方法。你只需要在大量数据上预训练一个模型,然后你就可以使用这些,评估作为一种衡量标准,衡量它如何泛化到不同的任务。现在我们有了,不同的训练方式,特别是,在严肃推理上进行强化学习,我们可以选择一个领域,我们可以真正训练一个模型,使其成为该领域的专家,从而对它进行深入推理,这让我们,能够针对特定的,类型的,的,的,任务,这意味着,比如,我们可以在一些评估中获得极好的表现,但它并不表明能很好地泛化到其他事情。

我觉得,我们在这个世界里思考问题的方式,我们确实觉得有点我们有点,赤字,比如,关于伟大评估的赤字。我认为我们关注的重点是模型能够发现新事物的实际标志。我认为对我来说,今年最令人兴奋的趋势,以及实际的进步迹象,是我们的模型在数学和编程竞赛中的表现。虽然我认为它们在某种意义上也变得饱和了,我们正在关注的下一组评估和里程碑将涉及实际的,发现,以及实际的,在经济上相关的,关于事情的进展。

Sara Wang: 完全正确。你们已经在AtCoder竞赛中获得了第二名。所以只剩下一个,只剩下第一名了。

Mark Chen: 我认为重要的是要注意,这些评估,比如,IOI,AtCoder,IMO,实际上是未来研究成功的真实世界指标。我认为很多,世界上最好的研究人员都参加过这些比赛,并取得了非常好的成绩。我认为我们正在为这个前沿做准备,我们正试图让我们的模型发现新的事物。

Sara Wang: 非常激动人心。

GPT-5的惊喜时刻与长期愿景

Anjney: 在发布之前,当您在评估基准测试中工作或在内部使用 GPT-5 时,哪项能力最令您惊讶?是否有那么一些时刻,您觉得它开始足够好,可以发布了,因为它在您的日常使用中很有用?

Mark Chen: 我认为对我来说,一件大事是,它在非常困难的科学领域推动了前沿发展。我们会让模型和我们的一些朋友一起尝试,他们是,专业的物理学家或专业的数学家。而且你已经在推特上看到了一些这样的例子,你可以拿出一个问题,让它发现,也许不是非常复杂的新数学,但是,一些非同寻常的新数学,而且,我们,我们看到物理学家、数学家不断地重复这种体验,他们尝试 GPT-5 Pro,然后说,哇,这是之前的模型版本无法做到的。这对他们来说是一个灵光一闪的时刻。这就能够自动化也许需要他们一个学生花费几个月时间才能完成的事情。

Jakub: GPT-5 是 O3 的一个,一个明显的改进。对我来说,O3 绝对是推理模型变得在日常生活中真正非常有用的时刻,特别是对于,处理数学,公式或,或推导,比如它们,它实际上达到了一个相当值得信赖的水平,而且我实际上可以把它当作一个工具,用于我的工作。到达那一刻非常令人兴奋。但我期望,正如我们所看到的,这些模型,比如实际上能够自动化,比如我们所说的,解决更长时间范围内的上下文问题。我期望那与未来一年内即将发生的事情相比,是很小的。

Anjney: 未来一到五年内会发生什么?就在你,你觉得可以分享的任何程度上。研究路线图是什么样的?

Jakub: 因此,我们研究的主要目标是生产,一个自动化的研究员。因此,自动化新想法的发现。当然,我们经常考虑的一个特定事情是自动化我们自己的,自己的工作,自动化机器学习研究。但这可能会变得有点自我参照。所以我们也正在考虑自动化其他科学领域的进展。而且我认为衡量进展的一个好方法是观察这些模型实际上能够推理和取得进展的时间范围。因此,现在当我们达到接近精通这种高中竞赛的水平时,我想说我们达到了大约1到5个小时的推理程度。所以我们专注于扩展这个时间范围,包括模型在非常长的时间范围内进行规划的能力,以及实际保留记忆的能力。

Mark Chen: 回到评估的问题。这就是为什么我认为评估的形式,例如这个模型自主运行的时间有多长,对我们特别有意义。

代理、推理与开放式问题

Sara Wang: 实际上,也许在这个话题上,出现了一种趋向于代理和模型开发的巨大趋势,但我认为至少就目前的状态而言,用户已经观察到这种权衡,即太多的工具或规划步骤可能导致质量下降,而相比之下,代理性稍差的东西。至少从今天观察到的情况来看,质量会更高一些。你们如何看待稳定性和深度之间的权衡?模型执行的步骤越多,第10步的准确性可能就越低,而不是让你只做一件事。它可以做得非常好。让它把这一件事做得越来越好,但更复杂的事情就会有某种权衡。但当然,要实现完全自主,你需要采取多个步骤。你正在使用多种工具。

Jakub: 我认为实际上,保持深度的能力很大程度上是在漫长的过程中保持一致。所以,我认为这些是非常相关的问题。事实上,我认为对于推理模型,我们已经看到这些模型大大地扩展了它们能够推理、工作并可靠地进行下而不会偏离轨道的时间长度。我认为这将仍然是我们关注的一个重要领域。

Mark Chen: 而且我认为推理是长期运作能力的核心,因为,你可以想象自己解决一道数学题,你尝试一种方法,但它行不通。你必须思考,下一步我将采取什么方法,第一种方法有哪些错误,然后你尝试另一种方法。世界会给你一些严厉的反馈,然后你不断尝试不同的方法,并且长期坚持这样做,这种能力就是推理,它赋予智能体那种稳健性。

Sara Wang: 我们谈了很多关于数学和科学的内容。我想知道你对这个问题的看法,你是否认为我们取得的一些进展实际上可以类似地扩展到那些不太容易验证的领域,那些不那么明确地有对错之分的领域?

Jakub: 这是一个我非常喜欢的问题。我认为如果你真的想扩展到研究领域,并且,找到、发现那些在数月或数年的时间尺度上对技术产生有意义的推进的想法,我认为这些问题就不再那么不同了,就像解决一个在小时尺度上非常明确、受到良好约束的问题是一回事,并且你需要搜索的想法数量是有限的。这可能与解决非常开放式的问题感觉截然不同。但即使你想解决一个定义非常明确,但规模更长远的问题,对吧。比如,证明千禧年大奖难题。那突然就需要你思考,好吧,哪些数学或其他科学领域可能相关?是否有我必须借鉴的来自物理学的灵感?

speaker_5: 比如,我想围绕这个问题开展的整个项目是什么?

Jakub: 现在这些变成了非常开放式的问题,而且实际上很难,对于我们自己的研究来说,比如,如果我们只关心,减少给定数据集上的建模子句,比如,衡量这方面的进展,比如,我们是否实际上在研究中提出了正确的问题?比如,实际上变成了一个相当开放的事情。

Mark Chen: 我认为考虑开放式的含义的界限是什么也是有意义的,我认为之前一段时间山姆发推特说了我们在改进模型,让它们更具创造力,我们也会考虑极端情况。

Sara Wang: 对。对。

强化学习的持续惊喜

Anjney: 让我们来谈谈强化学习(RL),因为自从O1发布以来,强化学习似乎一直是一份惊喜不断的礼物。每隔几个月,OpenAI就会发布一个版本,然后每个人都会说,太棒了。但这个强化学习的东西总会达到瓶颈。我们将会使评估饱和。模型将无法泛化,或者会因为过多的合成数据而发生模式崩溃,不管怎样,每个人都有一大堆理由相信强化学习带来的性能提升将会耗尽,但不知何故,它们就是没有,你们总是不断地推出持续的改进。为什么强化学习效果这么好?如果有什么让你惊讶的,那是什么?它工作得如此出色,有什么让你感到惊讶吗?

Jakub: 强化学习是一种非常通用的方法,而且一旦你有一个可用的强化学习系统,你可以探索很多想法。在OpenAI很长一段时间,我们在语言模型之前就开始研究这个,就像我们在思考,好吧。就像强化学习是非常强大的东西,当然,在深度学习之上,而深度学习是一种非常通用的学习方法。但我们长期以来都在努力解决的问题是,环境是什么?比如,我们如何真正将这些模型锚定到现实世界?或者,我们是否应该,模拟某个岛屿,在那里他们都学会合作和竞争。然后,当然就出现了,语言建模的突破,我们看到,好吧,如果我们,如果我们,如果我们扩展深度学习来建模自然语言,我们可以创建对人类语言有着极其细致理解的模型。

所以从那时起,我们一直在,一直在,寻求如何结合这些范例,以及如何让我们的强化学习在自然语言上工作。一旦你这么做了,对吧,那样你就有能力,实际上,去执行,在,在,在这些不同的想法和目标上,在这个非常,健壮,丰富的环境中,由预训练提供。所以,所以这是一个,这是一个,这是一个真正的,我认为这可能是我们过去几年研究中最激动人心的时期,我们真的,我们发现了如此多的新方向和有希望的想法,这些想法似乎都在奏效,并且,并且,并且,并且我们正在努力,理解如何比较。

Anjney: 对于那些不是强化学习从业者的人来说,强化学习最困难的事情之一就是构建正确的奖励模型的想法。因此,特别是如果你是一家企业或公司,想要利用你们所取得的所有惊人进展,但甚至不知道从哪里开始,那么对于这样一家公司来说,未来几年会是什么样子的?对于试图理解强化学习以构建正确的奖励模型的人来说,什么是正确的思维模式?关于最佳实践或思考方法,关于使用最新的,推理技术系列,你有什么了解吗?作为一名生物学家或物理学家,我应该如何思考,甚至是如何处理奖励建模的?

Jakub: 我预计这种情况会发展得非常迅速。我预计它会变得更简单,我想,大概两年前我们还在讨论,怎样才是构建我的微调数据集的正确方法?而且我认为我们还没有到达那个演变的终点。而且我认为我们会逐渐接近更像人类的学习方式,强化学习(RL)仍然不太像。所以我想,我认为最重要的心态是不要假设现在的情况会永远持续下去。

编码新范式:从竞技编程到氛围编码

Sara Wang: 所以我想把话题转回到编码上来。如果不祝贺GPT-5 Codex,我们就太疏忽了,它今天刚刚发布。你们能详细说说它有什么不同吗?它是如何以不同的方式训练的?也许说说你们为什么对它感到兴奋。

Mark Chen: 所以Codex团队的一个主要重点是,利用我们从推理模型中获得的原始智能,使其对现实世界的编码非常有用。所以,他们所做的很多工作与此基本一致。他们正在努力使模型能够处理更困难的环境。我们知道现实世界的编码非常混乱。所以他们试图处理那里的所有复杂性。有很多编码与风格有关,就像一些比较柔性的东西,比如模型有多主动,有多懒惰。并且能够定义,在某种意义上,比如一个,一个关于编码模型应该如何运作的规范。他们在那里做了很多,非常扎实的工作。

而且正如你所看到的,就他们也在研究更好的预设,程序员,他们对我要等待多久有一些概念。我愿意等待一个特定的解决方案。我认为我们已经做了很多工作来调整,对于简单的问题。低延迟更适合解决难题。

Jakub: 实际上,更合适的做法是进一步提高延迟,从而为你提供真正最佳的解决方案,而且只需找到那个预设值,也就是难题与易题之间的最佳平衡点。我们发现,上一代的Codex模型花费在解决最难题上的时间太少,而花费在解决简单问题上的时间太多。

Sara Wang: 这可能就是开箱即用的O3所能提供的。既然你们两位之前都是竞技程序员,那么就来聊聊编程这个话题。我知道你已经在OpenAI工作了将近十年,但我被李世乭的故事所震撼,这位围棋棋手在多次输给AlphaGo后,最终选择了退出围棋界。我想在最近的一次采访中,你们都表示现在的编码模型比你们的能力更强,这让你们感到兴奋,请详细谈谈这一点。那么,你们现在还会写多少代码?如果你们亲自动手编写代码,你们可以泛泛地谈谈OpenAI,但是现在有多少代码是由人工智能编写的?

Jakub: 编码模型变得更好是指什么?我是说,我认为看到这种进步非常令人兴奋。我认为像编程竞赛这样,对产生新想法的能力进行了一种很好的封装测试,而且,在这种类似盒装的,环境和时间框架内,我的确认为,如果你看看类似,好吧,我想国际数学奥林匹克(IMO)的第六题,或者,或者可能,一些非常难的编程竞赛题,我认为模型在这方面还有一点进展空间,但我预计这种情况不会持续太久。

我确实参与了一点。历史上我一直像……他很谦虚。历史上,我实际上一直非常不情愿使用任何工具。我只是很大程度上使用了它们。最终尤其是在,最新的编码工具,像GPT-5,我真的感觉,好吧,这不再是我喜欢的方式,比如,你可以做一个,30个文件的重构,几乎可以在15分钟内完美完成。你必须得用它。所以我一直在,我一直在学习这种新的编码方式,感觉确实有点不同。我认为它现在仍然有点像恐怖谷,因为你有点不得不使用它,因为它令人兴奋地简化了很多事情,但它仍然有点不如,不如,不如一个同事好。所以,我认为我们的首要任务是摆脱那个恐怖谷,但是,这绝对是一个有趣的时代。

Sara Wang: 当然。

Mark Chen: 为了稍微谈谈重新安置的时刻。我认为AlphaGo对我们两人来说,都是人工智能发展中一个非常有意义的里程碑。至少对我来说,这是我最初开始从事这项工作的原因。也许部分原因是我们在竞技编程方面的背景,比如我喜欢构建这些模型,这些模型可以在这些竞赛形式中表现得非常好,从,解决八年级的数学问题,到一年后,达到我们在这些编码竞赛中的表现水平。看到这种进步真是太疯狂了。而且,你有点想象或者说喜欢认为你感受到了一系列至少它都感受到的感觉,对吧。就哇,这真是太疯狂了。对。那么,有哪些可能性呢?而且,我花了数十年的时间来做这件事,并且,付出了很多努力才走到前沿。所以你真的感觉到这意味着这些模型,有什么是它们做不到的?

对。而且我确实觉得它已经改变了编码的默认方式。上周末我和一些高中生聊天,他们说,实际上默认的编码方式是凭感觉编码。就我想他们会认为,就像也许有时候为了完整性,你会去真正地从头开始完成所有的编码机制。但这对他们来说只是一个奇怪的概念。就你为什么要那样做?你默认就凭感觉编码。所以,我确实认为,未来有希望会是氛围研究。

伟大研究者的特质

Anjney: 我有一个关于这个问题的问题,是什么造就了一位伟大的研究者,当你说氛围研究时,氛围编码的一个重要部分就是对创造对世界有用且有趣的东西抱有良好的品味。而且我认为像Codex这样的工具最棒的地方在于,如果你对人们想要什么有很好的直觉,它能帮助你表达出来,然后基本上非常快速地实现一个原型。对于研究来说,什么是,什么是类似物,什么,什么造就了一个伟大的研究者?

Jakub: 坚持,是一个,是一个非常关键的特质,就当你真正尝试去做的时候,研究有什么不同,我认为研究的特别之处是什么,是你试图创造一些东西,或者,或者学习一些尚不为人知的东西,就像它是否奏效是未知的,就像你不知道它是否会奏效。所以总是尝试一些最有可能失败的事情。我认为达到一种状态,即你的心态是准备好失败,并准备好从这些失败中学习。而且,所以,而且,当然随之而来的是创建某种清晰的假设,并且对自己在这方面的表现极其诚实。

对。我认为许多人掉入的陷阱是竭尽全力去证明它是有效的。对。这与相信你的想法并认为它极其重要是截然不同的。对。并且你想坚持,坚持下但是你必须对自己诚实,关于它何时有效,何时无效,这样你才能学习和调整。

Mark Chen: 我认为经验是没有什么捷径可走的。我认为通过经验,你会学到,思考问题的正确视角是什么,但你不能选择太难的事情,或者做太容易的事情会让你不满意。我认为很多研究是在很长一段时间内管理你自己的情绪,因为,你尝试了很多事情,但它们不会奏效。而且有时候,你需要知道何时坚持下或者有时候需要转换到不同的问题。我认为趣味性是某种东西,你可以通过阅读优秀的论文,与你的同事交谈来获得,然后你可能会将他们的经验提炼到你自己的过程中。

Anjney: 当我在研究生院的时候,很大一部分,我是一个失败的机器学习研究员。我在研究生院研究生物信息学,但我研究顾问的一个主要目标是选择正确的问题来研究,这样你就可以在困难时期坚持下去。你说了一些有趣的事情,那就是对一个想法有信念和最大限度地寻求真相之间存在差异,但当它不起作用时,这些东西可能会,或者有时是意图,因为你有时会对一个你深信不疑的主题或问题产生归属感。你有没有发现,在品味阶段,在问题选择阶段,有什么有用的启发式方法可以帮助你找到正确的问题集,在这种问题集中,信念和寻求真相不像其他类型的问题那样处于零和紧张关系中?

Jakub: 需要澄清的是,我不认为信念和寻求真相之间真的存在零和紧张关系。我认为你可以这样,你可以被说服,或者,你可以对某个想法抱有很大的信念,而且你可以,非常坚持它,即使它行不通。我认为重要的是,你对自己诚实,比如,你取得了多少进展,并且你处于一种能够从一路上的失败中学习的心态。我认为重要的是寻找你真正关心并且真正相信是重要的问题。

所以,我认为我在许多激励我的研究人员身上观察到的一件事是,他们真正地追求难题,比如研究那些广为人知,但实际上并没有被认为是容易解决的问题,并问,为什么它们不容易解决?或者,关于这种方法,有什么问题?比如,为什么这种方法会失败?我认为你总是想着下一步真正的障碍是什么。如果你正在研究你真正相信是重要的问题,那么,这会让你更容易找到坚持数年的动力。

Anjney: 在GPT-5的重新训练阶段的开发过程中,例如,在任何存在难题的时刻,最初尝试解决该问题的方法都不奏效,但你发现有人坚持了下来。那些故事中,让你觉得有效,你希望其他人和其他研究人员能更多地做的,是什么呢?

Jakub: 我认为在整个过程中,比如沿着模型的序列,包括预训练模型和研究模型,我认为一个非常常见的主题是,bug,既有软件中的愚蠢的bug,这些bug可能会在你的软件中存在几个月,并在某种程度上使你所有的实验都失效,而你却不知道,识别出这些bug可能对研究项目来说是一个非常有意义的突破,也有那种意义上的bug,比如,你有一种特定的思考方式,而这种方式有点偏差,导致你做出错误的假设,识别出这些错误的假设,从头开始重新思考,无论是让第一个推理模型工作,还是让更大的预训练模型工作,我认为我们遇到了很多这样的问题,我们必须努力解决。

打造制胜的研究文化

Sara Wang: 作为研究机构的领导者,您如何看待留住团队中最优秀人才,以及另一方面,如何创建一个非常有韧性的组织,即使关键人物离开也不会崩溃?

Mark Chen: OpenAI在保持最优秀人才的积极性和兴奋度方面最大的优势在于,我们从事的是基础研究,我们不是那种环顾四周,然后说,X公司先构建了什么模型,或者Y公司构建了什么模型的公司。我们对我们想要构建的东西有一个相当清晰和明确的定义。我们喜欢在前沿领域创新。

Jakub: 我们真的不喜欢抄袭,而且,我认为人们会受到这个使命的鼓舞,你们实际上是在发现关于深度学习堆栈的新事物。而且,而且,我认为我们正在一起构建一些非常令人兴奋的东西。

Mark Chen: 我认为除此之外,很大程度上是创造良好的文化。所以我们希望有一个良好的渠道来培养人们成为非常优秀的研究人员。我们,我认为从历史上看,我们雇佣了,最优秀和最具创新精神的人才。所以我只是认为,我们也有非常深厚的人才储备。而且,我认为我们的大部分领导者都受到使命的极大鼓舞,这就是让他们所有人留在那里的原因,就像我审视我的直属下属时,他们并没有受到人才争夺战的影响。

Sara Wang: 我最近和一位研究员聊天,他谈到想找到“穴居人”。这些人通常是不在社交媒体上发布他们的工作的人。无论出于何种原因,他们甚至可能没有发表作品。

Jakub: 他们有点像在幕后做着工作。

Sara Wang: 我不知道你是否同意这个概念,但你们是如何招聘研究人员的?是否有任何非显而易见的方式来寻找人才,或者,你们寻找的非显而易见的特质是什么?

Jakub: 所以我认为我们寻找的一个东西是,在任何领域都解决过难题。我们很多最成功的研究人员,他们的深度学习之旅始于OpenAI,并且在其他领域工作过,比如,物理学,或者,计算机科学,计算机科学或者金融,在过去。扎实的技术基础,再加上有能力,想要从事非常雄心勃勃的问题,并真正坚持下去。我们不只是寻找,谁做了最引人注目的工作,或者,或者,或者在社交媒体上最引人注目,或者,

Anjney: 当你说话的时候,我在回想我作为创始人的时候,当时我在经营自己的公司,我们会招募优秀的工程师人才。你所描述的许多特质都是我当时一直在考虑的。埃隆最近发推文说,他认为整个研究员与工程师的区分是很愚蠢的。这只是语义上的,他只是在,语义上吹毛求疵,还是你认为这两件事实际上比看起来更相似?

Mark Chen: 我的确认为研究人员,他们不只适合一种类型。我们在OpenAI有一些研究人员非常有生产力,他们非常擅长产生想法,而且,他们不一定需要通过实施他们所有的想法来展示巨大的影响力,我认为他们仅仅在提出“我们试试这个”或者“我们试试这个”方面就产生了如此多的价值。或者也许我们正在考虑那个。而且还有其他的研究人员,他们非常非常擅长,抓住一个想法,严格地探索,围绕这个想法的实验空间。所以研究人员有很多不同的类型。也许第一种类型不一定能归类到伟大的工程师这一类,但是,我们确实试图拥有相当多样化的,研究品味和风格。

Anjney: 请稍微谈谈,要创造一种前沿的、制胜的文化,能够吸引各种各样的研究人员,然后真正地培养他们,让他们茁壮成长,让他们大规模地一起获胜,需要具备哪些条件。你认为,一个制胜文化最重要的要素是什么?

Mark Chen: 所以,我认为实际上最重要的是确保你保护基础研究,我认为如今你可能会进入这样一个世界,许多不同的公司都在考虑,我如何在聊天产品或其他某种产品界面上竞争,而且,你需要确保你留下空间,并认识到研究的本质。并且也要给他们做研究的空间,比如你不能让他们被拉向所有这些不同的产品方向。所以我认为这是我们在我们的文化中关注的一件事。

Jakub: 尤其现在,开放人工智能备受瞩目,人工智能整体备受瞩目,以及不同实验室之间的竞争。很容易陷入一种心态,比如,我们正在竞相击败最新的版本之类的。而且,肯定有一些领域,人们开始回头看,开始思考,这些其他的东西是什么?而且,很大程度上,我们的工作是确保人们有这种舒适感和空间去思考,一年或两年后事情实际上会是什么样子?就像我们真正想要回答的重大的研究问题是什么,以及我们如何才能得到像现在这样远远超过我们所见过的模型,而不仅仅是在当前的范式中迭代改进?

平衡研究与产品

Sara Wang: 为了进一步探讨保护基础研究这个话题。你们显然是世界上最好的研究机构之一,但你们也是世界上最好的产品公司之一。你们如何平衡这两者,特别是,你们也引入了一些世界上最好的产品高管。你们如何在两者之间平衡这种关注,并在保护基础研究的同时,继续推进你们现有的优秀产品?

Jakub:

Mark Chen: 我认为这在于划分出一批真正关心产品,并且真正愿意对产品的成功负责的研究人员。而且,而且他们当然应该与更广泛的研究工作紧密协调。但我认为只是让人们理解他们的任务和他们因什么而得到奖励,那是件非常重要的事情。

Jakub: 我认为另一个有帮助的事情是,我们的产品团队以及更广泛的公司领导层都认可这个愿景,我们研究的发展方向。所以,没有人会认为,比如,我们现在拥有的产品将是我们永远拥有的产品。我们只需等待,比如,来自研究的新版本。就我们能够共同思考未来的样子。

Anjney: 你们所做的一件事是让如此多样化的不同想法和赌注在OpenAI内部蓬勃发展,然后你们作为研究领导者必须想出某种方法,使这一切作为一个路线图的一部分,具有连贯的意义。而且你们有,这边的人在研究扩散模型和视觉媒体的未来。在这里,你们会看到有人在研究代码推理的未来。你如何描绘出一幅连贯的图景?这所有的一切是如何结合在一起的?当,当至少表面上,在给予研究人员独立性进行基础研究,以及以某种方式将所有研究纳入一个当前的研究项目之间,可能存在某种紧张关系时。

Jakub: 我们的研究项目的目标状态,几年来一直是实现一个自动化的研究者。所以我们一直在,我们一直在,以这个目标为中心构建莫扎特项目。所以这仍然为,各种领域的基础研究的自下而上的想法产生留下了很大的空间。但是,我们一直在思考这些想法最终将如何结合在一起。我们,我们相信例如,推理模型可以走得更远,并且我们对一些与推理模型没有直接关系的事情进行了大量的探索,但我们一直在思考它们最终将如何结合,以及一旦你拥有一个能够思考难题的工具,它将会是什么样子,这种创新将会是什么样子。所以这种对我们长期目标的清晰认识非常重要。但是,但这并不意味着我们对诸如“这里是所有的小碎片”之类的东西具有规定性,就像我们绝对将此视为一个关于探索和学习这些技术的问题。

Mark Chen: 我认为你希望在非常基础的层面上具有主见和规定性,但是很多想法会涌现出来,然后找到我们的层面。

Anjney: 最近有没有出现过这些事情之间存在矛盾的时刻?一个具有启发性的例子可能是最近,谷歌推出了这个新的图像模型,也就是纳米香蕉(Nano Banana)。它展现了非凡的价值。比如,很多普通人,当这些模型擅长理解编辑提示时,就可以释放大量的创造力。而且,我可以看到这会给一个可能没有直接优先考虑该问题的研究项目带来一些压力。如果,如果你团队中某个有才华的人过来跟你说,伙计们,像这样的东西在外部世界显然非常有价值。我们应该投入更多的精力在这上面。你如何推理这个问题?

Jakub: 我认为在OpenAI,这绝对是一个我们已经思考了很长一段时间的问题。如果你看看GPT-3,对吧,就一旦我们看到,这大概是语言模型的发展方向,我们肯定进行了很多讨论,显然你可以用人工智能做很多神奇的事情,对吧。而且你将,你将能够接触到这种,这种极其聪明的模型,它们,正在推动不同层级的科学发展,但你也将拥有这种令人难以置信的媒体生成能力,以及这种令人难以置信的,变革性的,娱乐应用。所以,我们如何在所有这些方向中确定优先级?这绝对是我们已经,已经思考了很长一段时间的事情。

Mark Chen: 当然。而且,真正的答案是,我们不会阻止某人对那件事感到非常兴奋。而且,如果我们在优先级排序上和我们的产品策略上保持一致,那么它自然会水到渠成。所以对我们来说,我们确实鼓励很多人对,构建这种,或者构建像智能体产品之类的产品感到兴奋,无论他们对哪种产品感到兴奋。但对我们来说,拥有一个独立团队也很重要,你要保护他们,他们的目标是创造算法进步。

资源配置与不变的约束

Jakub: 进一步补充安雅的问题,这如何转化为围绕资源配置的具体框架?

Sara Wang: 例如,你会考虑,X%的计算资源将用于长期,非常重要,但也可能有点不切实际的探索,而另一方面,显然还有当前的产品推理,以及介于两者之间的,在短期到中期可以实现的。

Mark Chen: 所以我认为这是我们双方工作的重要组成部分,只是这个投资组合管理问题,即你将多少计算资源分配给哪个项目?而且,我认为从历史上看,我们更多地关注核心算法的进步,而不是产品研究。但这是一个你必须随着时间的推移去感受的事情,这是动态的。我认为每个月都可能有不同的需求。所以我认为保持相当的灵活性很重要。

Sara Wang: 如果你再有10%的资源,你会把它投入到计算方面,还是投入到数据管理人员方面?你会把它从像边缘的位置插入到哪里?

Mark Chen: 好问题。我想,是今天的计算。我的确认为这与你提出的关于优先顺序的问题有关,就像在一个真空环境中,你希望在任何这些事情上都表现出色并获胜。我认为危险在于你最终在所有事情上都名列第二,而且,不在任何事情上都明显领先。所以我认为优先排序很重要,你需要确保你对某些事情有清晰的认识。这就是我们需要赢得的事情。

Anjney: 但我认为再多谈论一点是有意义的,即计算集在某种程度上很大程度上决定了命运,在像OpenAI这样的研究机构。几年前,我认为开始流行这样说,好吧,我们很快就不会受到计算的限制了,因为有一堆CMs(计算市场)正在被人们发现,我们将变得更有效率,所有的算法都会变得更好。然后最终,我们真的会处于数据受限的状态。看起来,几年过去了,我们仍然处于这种非常受计算限制的环境中。你认为这种情况会很快改变吗?

Jakub: 我认为我们已经看到了足够长的时间,我们能用计算做多少事情。我并没有太相信“我们将受到数据限制”的说法。我不希望这种情况发生改变。

Mark Chen: 任何说那种话的人都应该来我的岗位上干一周。没有人会说,我拥有我需要的所有计算能力。对。

Anjney: 从历史上看,推进基础研究的工作在很大程度上一直是大学的职责。部分原因是你刚才描述的计算原因,但对于前沿人工智能来说,情况并非如此。你们在引导前沿人工智能进步的轨迹以帮助科学方面做得非常出色。我想知道当这两个世界碰撞时,即当今大学研究的基础世界和前沿人工智能的世界,会产生什么?

Mark Chen: 所以我想我个人是从 OpenAI 的住院研究员开始的,这是一个我们为不同领域的人设立的项目,让他们进来,快速学习人工智能,并成为一名高效的研究人员。我认为那个项目有很多非常强大的要素。而且,这个想法就我们能否在尽可能短的时间内加速类似博士学位的进程?

Jakub: 我认为其中很多看起来就像是实现了很多,非常核心的结果。

Mark Chen: 而且,通过这样做,你将会犯错。你会想,哇,要建立直觉,如果把这个设置错了,那将会以这种方式摧毁我的网络。所以你只需要大量的实践经验。我认为随着时间的推移,可能所有这些大型实验室都开发了关于优化、架构和强化学习的课程,而且,可能没有比尝试实施这些东西、阅读它们并批判性地思考它们更好的方法了。

Jakub: 我认为你在学术界能体验到的另一件好事是,就是坚持,比如,你有几年时间,你试图解决一个问题,而这是一个难题。而且你以前从未处理过如此棘手的问题。而且,我确实觉得这是件事,目前进展的速度非常快。也许这些想法也比过去更容易实现。因为,深度学习只想学习。短暂地接触一个更具挑战性的问题,或许,成为一个团队的一员,攻克一个雄心勃勃的挑战,并且,感受到那种,被困住的感觉,以及最终取得进展的感觉,我认为这也是非常值得学习的东西。

Sara Wang: 对特定产品发布的外部感知和接受程度如何影响您对某些事情的优先级排序?它是否达到了这样的程度,感知和使用(如果它们结合在一起),显然可能有一个明确的指令,但在它们可能有些分离的情况下,这是否会影响您对路线图的看法或您强调资源的地方?

Jakub: 所以,我们通常对未来有一些非常坚定的信念。因此,我们不会将它们与我们产品的短期接受度紧密联系起来,当然,我们确实会根据正在发生的事情来学习。我们,阅读其他论文,并且我们,我们,我们关注其他实验室在研究什么。但是,总的来说,我们,我们是从一个对我们所构建的东西有着相当坚定信念的地方出发的。所以,当然,那是对于我们的长期研究项目而言的,当然,当涉及到产品时,就就像这个,这个,这个迭代的周期要快得多。

Sara Wang:

Mark Chen: 每次发布,我们都试图将其定位为在产品方面非常成功的东西。

Jakub: 而且,我认为从基础研究的角度来看,我们正在努力创建具有构建非常丰富的一系列体验和产品所需的所有核心能力的模型。

Mark Chen: 而且,将会有人对他们可以构建的某个特定事物有一些愿景,而且,我们会发布它。我们发布的每件事,我们都真诚地希望它能获得巨大的成功,而且,我们会得到反馈。如果它不是那样,那好吧,稍微调整一下我们的产品战略,但是我们绝对也在从事推出非常有用、非常成功的产品。

Anjney: 感觉上,由于我们刚才花了很多时间讨论的那种完全不受约束的进步速度,未来几年将会发生很多变化,这真的很难预测。我想象10年后的情况,更不用说,10个月后的情况了。那么我的问题,我想,是通过人工智能前沿将带来的所有变化,你认为有哪些先验知识实际上应该保持不变?有什么吗?很明显,我们没有足够的算力。你认为还有什么不会改变,而且你认为作为常量,是应该合理坚持的强先验知识?

Jakub: 我认为比算力更广泛的是物理约束,比如能源,而且在不远的将来,机器人技术将成为一个主要焦点。所以,思考物理约束将仍然很重要。但是,我确实认为在智能方面,我不会做太多的假设。

结语:信任与持续的驱动力

Sara Wang: 很少有初创公司能够达到你们的规模,无论是从员工角度,还是从收入计数来看,并且保持你们可能拥有的那种极速,在你们加入的七、八年前。这样做的秘诀是什么?即使你们现在已经处于顶峰,你们如何继续保持这种压力,几乎以尽可能快的速度交付产品?

Mark Chen: 至少在我看来,我们拥有真正优秀的科研文化最明确的标志之一是,我以前在不同的公司工作过,确实存在一种现象,那就是学习高原期,你去一家公司,你在最初的一两年里学到很多东西,然后你就会发现有点我知道如何在这个框架内相当高效地工作,而且我的学习也停止了。我在OpenAI从未有过这种感觉,就像你描述的那种所有这些非常酷的结果不断涌现的体验一样。你每周都在学到很多东西。而且,要掌握所有这些信息,需要花费大量时间。这非常令人满足。所以,不,我认为这是一个非常准确的描述。我们只是想产生大量真正高质量的研究。这几乎是一件好事。就像如果你产生的研究成果多到你几乎无法掌握它们一样。

Sara Wang: 完全正确。

Jakub: 我认为技术的发展绝对是一种驱动力,也许,也许我们在特定的范式中工作几年后会变得舒适,但我们总是站在新事物的风口浪尖上,并且,试图围绕我们将要面临的那种新的约束和新的可能性来重新配置我们的思维。所以我认为这创造了一种不断变化的感觉,以及总是学习新事物的思维模式。

Anjney: 在我们的研究中,关于OpenAI的一些在很多变化中没有改变的事情是,你们两个人彼此之间的信任。因为,我想最近在《麻省理工科技评论》上有一篇关于你们的文章或简介。这也是一个突出的主题,你们的化学反应、你们彼此的信任、你们的融洽关系是OpenAI的很多人已经开始将其视为一种常态的东西。那么背景故事是什么?你们是如何建立信任的?那是怎么发生的?这就像问,你们看过那部电影吗?《当哈利遇到莎莉》。我感觉你好像在沙发上。现在你必须了。

Mark Chen: 我的确认为,当我们开始着手推理的最初萌芽时,我们开始更紧密地合作。我们当时,那并不是一个很受欢迎的研究方向。而且我认为我们都看到了其中的希望,我们都在朝着这个方向努力,试图弄清楚如何让强化学习(RL)发挥作用。我认为随着时间的推移,我们把一个非常小的努力逐渐扩大为更大的努力。而且,我认为这就是真正开始与雅各布深入合作的地方。

我认为他真的是一位杰出的研究员。任何这些排名榜单,他都应该排在第一位,就像他有能力,应对任何非常困难的技术挑战,并且几乎像个人一样思考两个星期就能解决它。他在理解方面的广度和深度令人难以置信,他可以深入研究并亲自解决许多这些技术挑战。现在你得说些关于他的好话了。你不必说任何关于雅各布的好话。谢谢你,马克。

Jakub: 我觉得,我觉得我们一起做的第一件大事是,我们开始看到,好吧,我们认为这个算法会起作用。所以,我在想,好吧,我们该如何,引导人们参与这件事?我们和马克谈过,我们应该建立一个团队,真正让这件事成功。然后,马克去做了这件事,就像实际上把一群人聚集在一起,让他们从事非常不同的事情,把他们聚集在一起,从这个完全不同的群体中创造出一个具有令人难以置信的化学反应的团队。这对我来说是件非常令人印象深刻的事情。我真的很感激也很受鼓舞,我能,和马克一起工作,并体验到这一点。

我认为这种不可思议的能力既能理解、参与,又能思考研究本身的技术问题。而且还具备卓越的领导和激励团队的能力,并能创建一个组织结构,在这种混乱的、无序的方向中,实际上是连贯的,并且能够凝聚在一起。非常、非常鼓舞人心。太棒了。

Sara Wang: 好,说到这里。

Anjney: 科学领域,尤其是在物理学领域,一些最伟大的发现往往来自一对合作者,他们通常跨越大学、跨越领域。看起来你们也加入了这一传统。所以我们非常感谢你们抽出时间今天来聊天。谢谢你们的光临。谢谢。

Jakub: 谢谢。

来源:新浪财经

相关推荐