2024-OpenAI 新品发布会:Day 1 o1 pro直播总结

B站影视 2024-12-08 14:27 2

摘要:欢迎来到 OpenAI 的 12 天活动。我们将尝试一件据我们所知,没有任何科技公司做过的事情,就是在接下来的 12 天里,每个工作日,我们都会发布或演示一些我们构建的新东西。我们认为从今天开始,我们为您准备了一些很棒的东西。我们希望你会真的喜欢它。你知道,我

直播内容总结:

O1 正式版:提升:更智能、更快、多模态输入、更擅长指令遵循、编码效能提升、错误率降低约 34%、思考速度提升约 50%。多模态:能同时处理图像和文字信息,并具备处理未明确指定参数的能力。取代:取代 O1 预览版,提供给 ChatGPT Plus 和 Pro 订阅者使用。ChatGPT Pro:价格:每月 200 美元。功能:无限模型使用、高级语音模式、O1 Pro 模式。目标用户:高需求用户,例如在数学、程序设计、写作方面将模型推向极限的使用者。O1 Pro 模式:功能:允许模型使用更多计算资源,提升性能和可靠性。应用场景:适用于高难度的数学、科学和程序设计问题。ChatGPT Pro:更密集的计算任务支持、更多工具(网页浏览、文件上传)。O1 API:结构化输出、函数调用、开发者消息、API 图像理解。OpenAI 的战略布局: 通过推出 O1 正式版和 ChatGPT Pro,OpenAI 展现了其在模型性能提升和商业化方面的努力。O1 的改进旨在提供更好的用户体验,而 ChatGPT Pro 则锁定高需求用户,提供更强大的功能和更稳定的服务,以获取更高的收益。多模态的潜力: 多模态输入的加入,标志着大型语言模型能力的进一步提升,开启了更广泛的应用场景,例如图像理解、图文结合的创作等等。重视开发者生态: OpenAI 积极发展 O1 API 并提供一系列开发者友好的功能,显示其重视开发者生态,希望通过开发者的力量,将 AI 技术应用到更多领域。持续迭代与优化: OpenAI 承诺持续改进 O1 和 ChatGPT Pro,并持续推出新功能,这体现了其快速迭代和持续优化的产品策略。

中文逐字稿(简体):

欢迎来到 OpenAI 的 12 天活动。我们将尝试一件据我们所知,没有任何科技公司做过的事情,就是在接下来的 12 天里,每个工作日,我们都会发布或演示一些我们构建的新东西。我们认为从今天开始,我们为您准备了一些很棒的东西。我们希望你会真的喜欢它。你知道,我们会尽量让这件事变得有趣、快速,而且不会花太长时间,但这将是一种向您展示我们一直在做什么的方式,也是我们送给您的一份小假日礼物。所以我们就直接进入这第一天吧。今天我们实际上有两件事要发布。第一个是 O1 的完整版本。我们一直在非常努力地工作。我们听取了您的意见反馈。您喜欢 O1 预览版,但您希望它更智能、更快、多模态,并且更擅长遵循指令,以及其他一些事情。所以我们在这方面投入了很多工作。我们认为,对于科学家、工程师、程序设计师来说,他们会非常喜欢这个新模型。我想快速地向您展示它的性能。您可以看到从 GPT-4.0 到 O1 预览版在数学、竞赛编码、GPQA、Diamond 方面的提升。您可以看到 O1 是一个相当大的进步。它在许多其他方面也做得更好,但原始智慧是我们关心的东西。特别是编码性能是人们大量使用模型的一个领域。所以稍后,这些人将演示一些关于 O1 的东西。他们会向您展示它的速度、它如何处理真正困难的问题,以及它如何处理多模态。但首先我想先谈谈我们今天要发布的第二件事。许多人,ChatGPT 的高级用户,他们真的经常使用它,而且他们想要比每月 20 美元能买到的更多的计算资源。因此,我们将推出一个新的级别,ChatGPT Pro。Pro 可以无限次地使用我们的模型,以及像高级语音模式之类的功能。它还有一个叫做 O1 Pro 模式的新功能。因此,O1 是目前世界上最智能的模型,除了在 Pro 模式下使用的 O1。对于人们遇到的最困难的问题,O1 Pro 模式可以让您做得更好一点。您可以看到竞赛数学,您可以看到 GPQA Diamond。这些提升可能看起来很小,但在您真正突破这些模型的极限的复杂工作流程中,这是相当重要的。我将向您展示更多关于 Pro 模式的信息。人们真正想要的一件事是可靠性。在这里,您可以看到 Pro 模式答案的可靠性与 O1 的比较,而且这个差距更加明显。同样,对于我们的 Pro 用户,我们听到了很多人想要这个功能的声音。ChatGPT Pro 每月 200 美元,今天推出。在这 12 天中,我们还有一些其他的东西要添加到它里面,我们认为你也会非常喜欢,例如无限的模型使用和这个新的 O1 Pro 模式。所以我想要直接进入正题,并展示我们谈到的一些演示。这些人是帮助构建 O1 的一些人,他们背后还有团队中的许多其他人。谢谢,Sam。你好,我是 Hyungwon。我是 Jason。我是 Max。我们都是从事 O1 构建的研究科学家。O1 真正与众不同之处在于,它是我们训练的第一个在回应之前先思考的模型,这意味着它能提供比您可能尝试过的其他模型更好、通常更详细、更正确的回应。O1 将于今天推出给所有 Plus 和即将成为 Pro 的 ChatGPT 订阅者,取代O1 预览版。O1 模型比我们在 9 月推出的 O1 预览版模型更快、更智能。发布后,许多人询问了多模态输入的问题,所以我们添加了这个功能。因此,现在今天的 O1 模型能够同时推理图像和文本。正如 Sam 提到的,今天我们还将推出一个新的 ChatGPT 级别,称为 ChatGPT Pro。ChatGPT Pro 提供无限次使用我们最好的模型,例如 O1、4.0 和高级语音。ChatGPT Pro 还有一种特殊的 O1 使用方式,称为 O1 Pro 模式。使用 O1 Pro 模式,您可以要求模型使用更多的计算资源来更深入地思考一些最困难的问题。我们认为 ChatGPT Pro 的受众将是 ChatGPT 的高级用户,那些已经在数学、程序设计等任务上将模型推向其能力极限的人,以及写作。看到人们如何推动 O1 预览版,看到那些整天从事技术工作的人从中获得了多少东西,真是太棒了,我们真的很兴奋能让他们更进一步。我们也真的认为 O1 将更适合日常使用案例,而不一定是非常困难的数学和程序设计问题。特别是,我们收到的关于 O1 预览版的一个持续的反馈是它太慢了。如果你跟它打招呼,它会思考 10 秒钟。我们解决了这个问题。那真的很烦人。说实话,这有点好笑。是的。它真的在思考。它很在意。它真的很努力地想着要回复你的问候。它很在意。是的。所以我们解决了这个问题。我们认为它会更智能地思考。如果你问它一个简单的问题,它会很快地回答。如果你问它一个非常困难的问题,它会思考很长时间。我们为这个模型进行了一套相当详细的人工评估。我们发现,与 O1 预览版相比,它犯重大错误的次数减少了约 34%,而思考速度提高了 50%。我们认为这对大家来说将是一个非常非常明显的区别。我真的很喜欢与这些模型交谈。我是一个历史爱好者。我将快速地向您展示一个我可能会问这些模型的问题。这里,左边是 O1。右边是 O1 预览版。我只是问它一个非常简单的历史问题。列出二世纪的罗马皇帝。告诉我他们的日期,他们做了什么。不难。但是 GPT-4.0 实际上经常会把这个弄错。所以我问了 O1 这个问题。我问了 O1 预览版这个问题。我离线测试了几次。我发现,平均而言,O1 的回应速度比 O1 预览版快 60%。这可能会有一些变化,因为现在,我们正在将我们所有的 GPU 从 O1 预览版换到 O1。因此,实际上,O1 思考了大约 14 秒。O1 预览版,仍在运行中。罗马皇帝有很多。罗马皇帝有很多。是的,4.0 实际上经常会把这个弄错。有很多人统治了 6 天、12 天、一个月。它有时会忘记这些。你能全部记住吗?包括那些只统治 6 天的人?不能。是的。所以我们开始吧。O1 预览版思考了大约 14 秒。O1 预览版思考了大约 33 秒。一旦我们完成部署,这些都应该会更快,但我们希望它现在就能上线。没错。所以是的,我们认为你会非常喜欢与这个模型交谈。我们发现它给出了很好的回应。它思考得更快了。对每个人来说,这应该是一个更好的用户体验。我们知道人们真正想要的另一个日常使用案例的功能,我们已经收到了很多请求,那就是多模态输入和图像理解。Hyungwon 现在要谈谈这个。是的。为了说明多模态输入和推理,我用一些手绘图等创建了这个玩具问题。所以就是这样。很难看到。所以我已经拍了一张照片。让我们在笔记本电脑上看看这张照片。将图像上传到 ChatGPT 后,您可以点击它来查看放大版本。这是太空数据中心的系统。也许在未来,我们可能想要在太空中训练 AI 模型。我认为我们应该这样做。但是功率数字看起来有点低。1 吉瓦。1 吉瓦。好的。但总体思路,我认为。新手数字。是的,新手数字。好的。是的。所以我们这里有一个太阳,在这个太阳能电池板上吸收能量。然后这里有一个小型数据中心。它们就是这个样子。是的。GPU,对吧?然后是泵。这里的泵。太空作业的一个有趣之处在于,在地球上,我们可以使用空气冷却、水冷却来冷却 GPU。但在太空中,什么都没有。所以我们必须将这些热量辐射到外太空。这就是为什么我们需要这个巨大的散热器冷却面板。这个问题是关于找到操作这个 1 吉瓦数据中心所需的冷却面板面积的下限估计。可能会非常大。是的。让我们看看它有多大。让我们看看。所以这就是问题所在。我要输入这个提示。是的,这本质上是在问这个问题。让我按下开始。模型会思考几秒钟。顺便说一下,大多数人不知道。我和 Hemwon 合作了很长时间。Hemwon 实际上拥有热力学博士学位,这与 AI 完全无关。你总是开玩笑说,直到今天,你才能够在你的工作中用到你的博士研究成果。所以你可以相信 Hemwon 的分析。终于,终于。感谢你的赞扬。现在我真的必须把它弄对。好的。所以模型完成了思考。只用了 10 秒钟。这是一个简单的问题。让我们看看模型是如何做到的。所以功率输入。首先,这 1 吉瓦,只是画在纸上的。所以模型能够很好地理解这一点。然后只有辐射热传递。这是我提到的。所以在太空中,没有其他东西。然后是一些简化的选择。一个关键的事情是,我故意让这个问题的规格不明确,这意味着关键参数是冷却面板的温度。我把它省略了,这样我们就可以测试模型处理模糊性的能力等等。所以模型能够识别出这实际上是一个未指定但重要的参数。它实际上选择了正确的温度范围,大约是室温。然后,它继续进行分析,做了很多事情,然后计算出了面积,即 242 万平方米。为了了解它有多大,这大约是旧金山陆地面积的 2%。这太大了。还不错。还不错,是的。哦,好的。是的。所以我想这是合理的。我将跳过其余的细节,但我认为模型做得很好,它做出了一些良好且一致的假设,使所需面积尽可能地小。所以,是的,这就是多模态推理的演示。这是一个简单的问题,但 O1 实际上非常强大。在 MMU 和 MathVista 等标准基准测试中,O1 实际上拥有最先进的性能。现在 Jason 将展示专业模式。很好。我想简要演示一下 ChatGPT-O1 Pro 模式。人们会发现 O1 Pro 模式对于例如困难的数学、科学或程序设计问题最有用。这里我有一个相当具有挑战性的化学问题,O1 预览版通常会答错。所以我让模型开始思考。我们从这些模型中学到的一件事是,对于这些非常具有挑战性的问题,模型可以思考长达几分钟。我认为对于这个问题,模型通常会思考一分钟到三分钟不等。所以我们必须在模型思考的同时为人们提供一些娱乐。我会稍微描述一下这个问题,然后如果模型在我讲完后还在思考,我准备了一个冷笑话来填补剩余的时间。所以我希望它能思考很长时间。正如你所见,这个问题要求一个符合非常特定标准的蛋白质。所以有六个标准。挑战在于,它们中的每一个都需要相当多的化学领域的专业知识模型必须记住这些知识。关于这个问题,还有一点需要注意的是,这些标准都没有透露正确答案是什么。因此,对于任何一个标准,可能有几十种蛋白质符合该标准。因此,模型必须仔细考虑所有候选蛋白质,然后检查它们是否符合所有标准。好的。你可以看到,这次模型实际上更快了。它在 53 秒内完成了。你可以点击查看模型为得到答案所经历的一些思考过程。你可以看到它最初考虑了不同的候选蛋白质,例如神经配体。然后它得出了正确的答案,视黄酸,这很好。好的。总结一下,我们从 Max 那里看到,O1 比 O1 预览版更智能、更快。我们从 Hyungwon 那里看到,O1 现在可以同时推理文本和图像。最后,我们看到了 ChatGPT Pro 模式,您可以使用 O1 来思考、推理最难的科学和数学问题。是的。ChatGPT Pro 级别还有更多功能。我们正在研究更密集的计算任务,以便为那些想要更进一步推动模型的人提供更长、更大的任务。我们仍在努力向 O1 模型添加工具,例如网页浏览、文件上传等等。我们也在努力将 O1 引入 API。我们将为开发者添加新功能,例如结构化输出、函数调用、开发者消息和 API 图像理解,我们认为你会非常喜欢这些功能。我们预计这将是开发者的绝佳模型,它将真正开启你们可以构建的代理事物的全新领域。我们希望你像我们一样喜欢它。太棒了。非常感谢你们。祝贺你和团队完成这项工作。我们真的希望你会喜欢 O1 和 Pro 模式或 Pro 级别。我们还有很多东西要来。明天我们将带着一些对开发者来说很棒的东西回来,我们将从那里继续前进。在结束之前,我们能听听你的笑话吗?可以。我今天早上编了这个笑话。笑话是这样的。圣诞老人试图让他的大型语言模型做一道数学题,他不断提示它,但它就是做不出来。他最终是如何解决的?不知道。他用了驯鹿强化学习。非常感谢。

来源:来点科技

相关推荐