摘要:对此,深度参与 AlphaZero 项目的 Google DeepMind 资深研究科学家 Nenad Tomasev 表示:「强化学习的能力使 AI 不再受人类知识的限制,而是能够超越这些限制,开辟新的可能性。」
过去一年,强化学习成为了大模型 AI 领域最热的概念之一。
随着行业内高阶推理模型的推出,再次彰显了强化学习在通往 AGI 道路上的重要性,也标志着大模型 AI 进入了一个全新阶段。
实际上,强化学习在整个 AI 领域早已有深刻影响。当年基于强化学习理论训练的 AlphaGo、AlphaZero,都展现了超越人类的 AI 震撼。
对此,深度参与 AlphaZero 项目的 Google DeepMind 资深研究科学家 Nenad Tomasev 表示:「强化学习的能力使 AI 不再受人类知识的限制,而是能够超越这些限制,开辟新的可能性。」
随着强化学习被引入到大模型训练,传统的开发训练方式也正在被颠覆。Nenad 表示:「未来,相比依赖单一的模型,我们会构建拥有多种能力的智能体。」
谷歌旗下机器学习社区 Kaggle 的 CEO D.Sculley 也表示:过去一年 AI 领域的进展,比之前的 7 年还多,开发范式已经完全被颠覆了。
在 2024 极客公园创新大会上,两位来自谷歌的专家,Nenad Tomasev 和 D.Sculley,各自分享了他们对强化学习、AI 开发社区以及整个行业发展趋势的观点。
01强化学习让 AI 拥有了「超人级」的能力极客公园:Google 如何看待 AlphaZero 技术的演进过程?特别是当它从特定领域扩展到更广泛应用时,你们从中有什么新的发现?
Nenad:AlphaZero 无疑是强化学习领域的一个杰出成功案例,通过「自我博弈」应用于游戏领域,最初是国际象棋,这也是我们今天在一起讨论的原因。不过,强化学习的应用领域远不止 AlphaZero。即便是当下的生成式人工智能和大语言模型,它们在实际使用中能够保持安全性和行为可控,很大程度上也得益于基于人类或机器学习反馈的强化学习机制。而我们也能看到这种机制在各种领域和场景中的成功案例。
关于 AlphaZero 本身,它确实是模型和应用领域的一次飞跃进步,这段探索历程非常有趣。
在国际象棋上,通过 AlphaZero,我们从系统开发初期的训练改进,逐步发展到更具创造性和多样性的版本,这些版本在棋局难题和具有进攻性的棋局中展现了更强的表现。不过,作为一家 AI 公司,而非国际象棋引擎公司,我们的目标并不是单纯地最大化系统在国际象棋上的表现。虽然更强的系统自然是好事,但我们的关注点比象棋要更广泛。
国际象棋对我们而言是一种「分类模型机制」(model organism of sorts),它是一个有趣的游戏,我个人经常玩且乐在其中。但它更是测试 AI 进步和探索创意的一个重要方式。我们的目标是通过在国际象棋中寻找创意和灵感,这样不仅能为国际象棋社区带来一些回馈,还能将这些想法应用到其他领域。这也是我们花时间进行游戏原型开发的原因之一,因为 AlphaZero 让我们能够从零开始构建这种能力。
此外,我们还着重于系统的可解释性,理解 AlphaZero 深度神经网络中早期的人类级别概念和超越人类级别的概念。这种研究尤其重要,因为随着 AI 系统的不断发展,它们的「超人级」能力将会越来越多。这意味着我们不仅需要这些系统去完成强大而酷炫的任务,更需要从它们的知识和能力中学习。例如,在科学、经济或其他对社会具有重大影响的领域中,当一个 AI Agent 提出某些建议并表现出色时,我们并不希望这些系统只是完全自主地行动,而是成为供我们使用的工具。因此,问题在于:我们如何建立对这些系统的信任,与它们合作以实现更好的结果?此外,我们自己是否能通过与这些系统的互动让自己也成长并变得更强大?
极客公园:强化学习在 AI 领域正变得越来越重要,AlphaZero 中的强化学习与大模型中的强化学习应用有怎样的区别?
Nenad:强化学习方法有很多种,总能找到它们之间的共性和差异。我认为,AlphaZero 作为一种概念,其独特之处并不在于具体的软件实现,而是在于其拥有一个能够持续进行自我改进的循环,这使得它能够不断增强自身能力。
一般来说,广泛意义的机器学习是从数据中学习,通过观察数据来拟合模型。但如果你的数据仅来源于人类的表现,那么你的系统可能永远无法超越人类的水平。它或许能在某种意义上更「聪明」,比如通过整合多个个体的知识来表现得比单个人更好,但你依然受限于人类已知的范围,因为你只接触到人类的数据。
AlphaZero 的突破在于它通过自我对弈生成自己的数据。这种能力使其不再受到人类知识的限制,而是能够超越这些限制,开辟新的可能性。我认为这是非常有趣的地方。
在 AlphaZero 之前,还有 AlphaGo,但它没有 AlphaZero 的「零」特性。AlphaGo 的起点是基于人类数据,然后通过多轮自我改进循环提升能力。因此,实际上这两种方法是可以结合起来使用的。在某些情况下,从一个预先存在的模型开始,然后在此基础上不断改进,是非常有用的。我们并不需要完全抛弃我们对一个问题已有的知识,而是可以以此为起点,继续提升。
在语言模型领域,也有一些论文尝试引入类似的自我改进循环。这些方法和框架很多,但有时会遇到瓶颈,那就是需要一个清晰的奖励信号,明确模型要优化的方向。因此,我认为当前的一个挑战是,在开发此类模型时,作为研究社区乃至整个社会,我们需要找到一种方法,为模型提供明确的目标和方向。而为了给出这个明确的目标,我们自己首先需要对「我们想要什么」和「我们想如何做到」有清晰的答案。这听起来似乎很简单,但在许多复杂领域,这实际上是一个非常困难的问题。
极客公园:强化学习的进步,总体上如何启发了你的研究工作?
Nenad:我认为,我们正迈向一个未来,在这个未来中,与其说我们始终依赖单一的模型,不如说我们会构建拥有多种能力的智能体。这些智能体可能由多个组件和子组件组成,根据不同的情况表现出不同的行为。关键在于让这些智能体能够在正确的环境中,调用合适的组件,展现正确的行为。在这一点上,强化学习可以发挥重要作用。
02智能体和多模态整合是未来的重点极客公园:你认为下一个重要的发展方向是什么?特别是在实现更通用的 AI 系统方面,需要突破哪些关键技术瓶颈?
Nenad:现在有比以往更多的人在探索各种可能性,探索所有可能的选项。因此要准确预测未来三个月、六个月、十二个月、甚至五到十年后的情况是非常困难的。但我相信,所有人共同努力所带来的进步会让我们感到惊喜。有一些领域最近取得了显著的进展,我认为这是很自然的进步。
我们通常是从解决单一组件入手,例如,过去计算机视觉领域有像 ImageNet 这样的基准测试,尽管仍有改进空间,但这部分已经得到了很大的解决。同样的,自然语言处理也取得了巨大进展,虽然仍不完美,但在单一模态下的表现(已经很好了)。现在我们进入了多模态融合的多模型时代。比如,一个模型不仅能够生成文本,还能理解图像,甚至生成图像,或者处理音频等。有人已经在将各种模态信息连接在一起,这种结合对于模型的「落地性」(grounding)非常有帮助。所以模型能够更好地理解概念和语言,这对于实现真正的智能至关重要。
最近,在「规划和推理」(planning and reasoning)方面有不少研究成果发布。这是未来另一个关键领域。
在我们目前有的直觉式推理基础上,如何以更结构化的方式深入思考和处理问题?这并不是一个全新的概念。我们已经在语言模型中尝试了「思维链」(chain of thought)等类似方法有一段时间了。然而,现在我们逐渐认识到,过去使用的许多基准测试相对简单,人们正在创建更大、更复杂的基准测试,以解决我们真正关心的科学、社会、医疗等领域中的复杂任务。这些任务无法仅凭直觉或一时冲动来完成,而是必须涉及深层次的推理。在我们整个领域,长期以来一直都知道,深度推理是必须解决的关键部分。
此外,还有其他关键问题。例如,关于短期或长期记忆,当前语言模型可以利用上下文窗口,调用外部数据库或运行搜索并获取结果。这些能力已经超越了人类大脑可以即时处理的信息范围。语言模型可以调用外部工具,实现更复杂的功能。如果我们把人类作为参考,尽管「通用人工智能」(AGI)的定义本身还不清晰,我们可以观察到,即便是人类也无法解决所有的通用任务。比如蛋白质折叠问题,我们并不是靠人脑解决这个问题,而是需要专门的蛋白质折叠模型。这表明,人类也有局限性。虽然我们在技能获取的广度上是通用的,但我们仍需分解问题以找到具体解决方案。
在人工智能领域的漫长发展历史中,我们一直借鉴人类的能力。通过神经科学和心理学的视角,我们将人类大脑的技能和组件分解为独立的模块,试图在模型中实现这些能力。这种方法已经在语言、视觉、音频和传感器数据等单一模态领域取得了长足的进步。目前,我们几乎在每种模态上都有基础模型。
我认为,下一步的发展自然是整合这些独立的管道。未来的趋势是朝向一个更加「智能体化」(agentic)的方向发展:从单一模型过渡到一个能够整合多个子模型的智能系统。虽然可以设想一个巨大的、综合所有能力的联合模型,但更现实的短期目标可能是一个软件智能体(software agent),它调用多个子模型协同工作。智能体系统的关键在于如何将这些组件连接起来,并使整个联合系统能够按照预期运行。
因此,智能体和多模态整合是下一阶段的核心关注点。这不仅仅是训练或预训练单一的大模型,而是考虑如何将这些现有强大的模型以工作流的形式结合起来,让它们能够满足具体的任务需求并成功执行任务。这种整合的未来充满潜力,也标志着人工智能的应用将进一步走向实用化和多样化。
03AI 开发范式不再是数据主导,而是模型主导极客公园:在过去几年中,你观察到 AI 的开发范式发生了什么样的根本性转变?这种转变对开发者和企业意味着什么?
D. Sculley:这些年里,我一直以机器学习研究员、工程师和数据科学家的身份工作。很长一段时间里,做好机器学习和人工智能工作的标准最佳实践,大致是这样的:
首先,为解决一个问题,你需要先收集大量的数据,然后对这些数据进行细心筛选,也许还要进行一些「特征工程」,找出最重要的部分。
然后,训练一个尽可能简单的模型,找到一个「愚蠢」的起点。传统意义上,这意味着从一个非常简单的模型开始,比如「随机森林模型」(Random Forest)或「线性模型」,然后开始训练,只有在评估结果表明必要的时候,才增加模型复杂度。最终,得出一个适合部署的模型。
然而,在当下时代,这种范式已经完全不同了。需要再从收集数据集开始,而是先寻找一个模型。这个模型不是最简单的模型,而可能是最大、最复杂的模型,比如像 GPT、Gemini 这样的模型,或其他类似的模型。你甚至不需要收集任何数据,而是直接尝试一些提示词(prompt),看是否能够奏效。在相当大比例的情况下,它都能够奏效。这非常让人意外,但也非常有趣。
如果这些提示词不起作用,那接下来你可能会进行提示词优化(prompt engineering),或者收集一些数据并将其添加到 RAG 数据库(rag database)或长上下文窗口(long context window)中,也可能会利用一些控制流循环或其他工具,比如 LangChain。如果这些方法仍然不起作用,那么可能需要试试微调(fine-tuning)。如果微调仍然失败,那时才需要收集大量数据并从零开始训练一个模型。
所以,对我来说,这个范式完全被颠倒了。这也意味着 Kaggle 必须随之进化。因此,我们调整了我们的竞赛设置,确保有更多的竞赛让人们体验、适应这种新的工作流程。
我们还创建了一个模型中心,允许人们分享和使用开放模型作为起点,这是以前无法实现的。类似的变化还有许多。这些变化就像旋风一样很快,也非常有趣!
极客公园:千亿甚至万亿的模型被视为大公司的竞技,但小团队和独立研究者能做什么?
D. Sculley:我认为当下这波人工智能浪潮中最有趣的事之一,就是打破了几年前的一种预测:两三年前,有人认为,只有那些拥有大量计算资源,甚至接近无限算力的人,才能在这个领域继续取得突破性成果。然而,事实证明这并不正确。
实际上,人们只需很少的计算资源也能做出很出色的工作,因为现有的构建模块(building blocks)本身已经非常强大,并且可以以极具创新的方式加以利用和拓展。
极客公园:对 AI 产品的开发流程来说,具体区别是什么?
D. Sculley:我认为主要区别在于,我们将更容易创建我们想要实现的产品体验,且会变得更易维护。我个人的工作背景主要专注于可靠的机器学习,包括系统层面的。因此,我经常思考如何简化开发和维护的过程。
我个人认为,如果系统能实现一定程度的组件化或模块化,那么开发和维护起来会更加容易。举个例子,当我们作为开发者在创建一个应用时,如果我们能把需要实现的一组功能分解成两三个甚至四个独立的组件,并分别进行开发,这会让实现这些功能变得更加简单。这是一种假设,有些时候会成立,但在某些情况下可能并不适用。但总体而言,我认为这种开发流程能使我们以更低的成本创造出更好的产品。
极客公园:在这波 AI 浪潮中,你认为现在行业面临的关键问题是什么?一个 AI 社区能够在解决这些问题上扮演怎样的角色?
D. Sculley:是的,这里涉及几个不同的点。我们已经讨论过「发现」(discovery)的重要性,对我来说,这是最重要的事情。因为当你看到目前对 AI 开发的投资规模时,会感到很震撼。但我认为,真正「AI Native」的应用案例尚未完全被发现。因此,「发现」是最重要的一个点。
但第二点,几乎同样重要,可以说是并列第一的,就是评估(evaluation)和压力测试(stress testing)。评估一直以来都是 AI 开发的核心驱动力,追溯到 20 或 30 年前就是如此。
在当前世界,我们发现评估大型语言模型是一个非常棘手的问题,大家都知道这很重要。那么,为什么它会如此困难呢?这是因为这些大型模型的输入空间几乎是无限的,输出空间同样几乎无限。因此,为了真正了解这些模型表现良好的地方、它们何时表现良好以及可能失败的情况,你需要非常多样化的评估方法。
这是一个问题,而拥有一个庞大且高度多样化的社区正是解决这一问题的重要方式。这样,我们才能更好地了解和改进这些模型。
04未来不是一个模型决定一切,而是大小模型配合极客公园:2025 年,你期待 AI 领域发生怎样的变化?
D. Sculley:首先,我会说,如今 AI 领域的进展太快,一年当七年的感觉。所以 2025 年已经算是很长一段时间了。但展望未来,我相信 AI Native 应用案例将会真正被发现。我认为,「自主性 AI」(agentic AI)这个词会变得越来越重要。
目前我们可能觉得,拥有一个能够为所有系统处理一切的大型通用模型是一个很好的起点。但从长期来看,我认为更现实的方向是,我们的系统将由多个 AI 模型或智能体(agent)相互协作。这个趋势的重要性也不难理解。比如,当你运行一个系统,它需要调用一个专有的,或基于 API 的语言大模型,但同时你也希望对输出结果进行验证,以确保它完全符合你的应用需求。这时,拥有一个由应用开发者完全控制的小型模型可能就非常重要。这两个模型就会协作完成任务。
此外,我们还可以设想额外的模型用于任务的编排(orchestration)、分配(routing)或其他组件化的流程。这是我认为 AI 领域的发展方向,我们需要确保 Kaggle 社区能够参与到这个未来之中,从而使这类技术变得更加普及和易于开发。
极客公园:近年来,我们见证了从传统软件工程师到ML工程师的角色演变。现在随着大语言模型的兴起,你认为未来几年AI领域的人才需求和岗位定义会如何变化?企业该如何评估和管理这些新型人才?
D. Sculley:是的,当我们思考不同形式的工程时,我经历过前一个时代,人们需要定义「机器学习工程师」的角色究竟意味着什么。当时的机器学习工程可能与传统的软件工程有联系,但并不完全相同。许多机构花了相当长的时间去理解这一点,无论是在招聘、绩效管理还是其他方面。
比如说,如果你每天的工作是收集数据集、清理数据,这与坐在你旁边的人写大量代码有何关系?人们需要找到方法来评估这种工作的价值。我相信,未来我们将看到——当然我们现在已经在看到——行业对那些擅长通过提示词、RAG 数据库、以及其他模型影响方式,与大语言模型交互的人有巨大需求。这种工作形式与传统机器学习不同。
接下来的挑战在于:如何使这些新工作角色正式化?如何确保所需的专业技能可以被很好地评估?以及如何确保这些人在公司中所创造的价值能够得到充分认可?我认为这是下一波技术浪潮需要解决的一个重要课题。
极客公园:你会给那些想在 GenAI 时代追求机器学习、数据科学职业的年轻人什么建议?
D. Sculley:首先,这是一个令人难以置信的,激动人心的时代。即便保守地说,人工智能也可能是历史上发展最快的领域。创新的速度比我们在任何其他科学技术领域中见过的都要快。这一点非常值得注意。如果你是一个刚起步的年轻人,我认为最好的建议就是不要等待,立即开始。
Kaggle 显然是一个很好的起点,但还有许多其他选择。我们当然希望人们来到 Kaggle 并参与其中,但最重要的是动手实践,深入尝试模型、开展项目,并探索这些技术的极限。我相信创新可以来自任何富有创造力的来源,而下一代开发者将比上一代拥有更多的想法和灵感。
来源:新浪财经