DeepMind首席科学家万字访谈实录|真正的AGI需要推理、智能体和记忆系统的协同突破

B站影视 电影资讯 2025-04-08 16:32 1

摘要:Jack Rae同时也是Gemini 2.5 Pro 的关键贡献者之一,本次对话深入探讨该模型背后的研发历程,为何前沿开发者相继发布相似的具备推理能力模型,是路径清晰还是思想碰撞?推理能力与 AI Agent 能力的关系如何?Google 如何收集人类推理数据

4月6日,Google DeepMind 的首席科学家Jack Rae接受海外播客Cognitive Revolution访谈。

Jack Rae同时也是Gemini 2.5 Pro 的关键贡献者之一,本次对话深入探讨该模型背后的研发历程,为何前沿开发者相继发布相似的具备推理能力模型,是路径清晰还是思想碰撞?推理能力与 AI Agent 能力的关系如何?Google 如何收集人类推理数据,以及在多大程度上引导模型遵循特定认知模式?AGI蓝图以及实现AGI的关键等话题。

以下是本次对话实录

经数字开物团队编译整理

01 推理能力的提升并非突变

而是长期积累跨越能力阈值的结

主持人提问:为何基于正确性信号的简单强化学习方法,现在才开始奏效?为何这种方法未能更早成功?现在,这种方法似乎随处可见并且效果显著,是真正的突破还是积累的结果?

Jack Rae 实录:非常感谢邀请。我们对 Gemini 2.5 Pro 这个模型非常满意,对其发展轨迹感到欣慰。它是整个 Gemini 团队——包括预训练、‘思考’能力、后训练及许多其他团队——共同努力和卓越工作的结晶。我们内部评价很高,测试时就很喜欢,当然发布前并不完全确定外界反响。现在看到用户觉得它非常有用,能感受到 AGI 的潜力,并在实际任务中观察到显著性能提升,感觉很棒。这确实是整个 Gemini 团队的杰出成果,我很高兴能在此聊聊模型研发,特别是在‘思考’能力方面的工作。

关于强化学习用于推理的问题,根据我的观察,至少在 Gemini 大语言模型项目近一年中,我们一直我们一直越来越依赖通过强化学习来提升模型的推理能力。随着新模型迭代,强化学习在基于准确率的任务中应用日益广泛和深入,我们从中获得离散且可验证的奖励信号来改进模型推理过程。实际上,在专门启动‘思考’能力研究前,我们就已在这样做,并且发布的模型中也包含了这项技术,它持续帮助改善模型推理。所以我个人认为,这项技术是许多优秀的推理研究员和强化学习专家长期努力改进的结果。它最近似乎达到了某个进展的转折点,因而引起广泛关注,也许像 DeepSeek 技术报告的发布让许多人感觉像是一个标志性时刻。但我认为它其实已有效运作了一段时间,并非某个单一关键因素突然使其生效,更像是能力积累跨过了一个阈值,使人们真正注意到其潜力。

主持人提问:外部观察到的‘突现’进展与内部平稳发展曲线是否存在差异?为何几乎所有顶尖开发者都在短时间内发布了相似的具备推理能力的模型,是条件成熟还是交流的结果?这个方向是否因其潜力巨大且易于获得初步成果,吸引了大家投入?对于此前在较小模型上尝试强化学习失败的情况(如R1论文所述),您如何解释其合理性?

Jack Rae 实录:关于进展曲线,我个人是这样看的。许多这类能力,当我们在内部追踪时,其发展有时呈现出近乎‘惊人’的可预测性,几乎像摩尔定律式的增长。我逐渐体会到确实存在这种平稳提升的现象。对于改进策略的每项具体措施,无论是针对强化学习还是模型本身,事先并不总能确定哪项一定有效,因此存在一定的随机性。但随着各种改进不断累积,整体上确实呈现出一种趋势性提升。而在公众视野中,通常是当进展跨越某个阈值时,人们才会真正注意到并感到兴奋,这极大地激发了想象力。关键在于,模型能力提升到足够高的程度,使得每次发布都让人感觉像是一次质的飞跃。

关于行业趋同,这其实是普遍现象,甚至在所谓的旧金山科技派对出现之前就一直存在。人们总是在探寻能够取得进展的方向。我认为,即便是微小的进展信号——比如观察到一个模型正以特定方式改进,人们也能迅速捕捉到。尤其是当前,我们拥有空前规模的顶尖人才投身于 AI 领域,以及前所未有的算力支持我们快速响应。当一种新的范式出现时——比如这次的测试时计算(thinking/reasoning time),并且这个方向展现出巨大的性能和能力探索空间时,这种快速响应的速度达到了前所未有的水平,人才和资源会迅速涌入这个领域。

以 Google 内部,特别是 Gemini 项目为例,我们大约在去年九、十月组建了推理团队,聚焦于思考和测试时计算这个议题。大约专注投入一个月左右,我们就取得了一些激动人心的模型层面突破。这促使我们在十二月发布了第一个具备思考能力的实验模型。回顾那个团队的进展过程,会发现这是一个非常自然的发展:大家深入探索这个领域,越来越多的人参与思考、进行实验,然后进展速度非常快。我推测,这在当前顶尖研究团队中是普遍现象。这就是为什么能在相当短的时间内,看到一批推理模型相继问世。这正是当前好奇心、探索精神与人才汇聚的自然结果。大家总有动力去寻找下一个重大突破,并尽可能快地探索它。

至少在 Gemini 内部,情况就是如此。我们也确实看到了许多初步迹象表明该方向可行,并取得了一些初步成果。同时我们也很幸运,要做好这件事,需要对在大型语言模型上应用强化学习有十足的信心,而这正是 Google 非常熟悉且持续投入研究的领域。因此,从这个角度来说,我们进入这个领域探索、并通过“思考”发现一系列很酷的能力突破,进入门槛相对较低。因此这对我们是自然的延伸。我无法评论其他实验室的情况,但我相信整个行业也在发生类似的事情。

关于小模型强化学习失败,这种说法(R1 论文提到在小模型上失败)完全成立。我认为,要让这些技术稳定运行,其难度远超普遍认知。即使是预训练,如今看似已解决,但在我大约六年前从事预训练工作时,训练千亿参数级别或更大规模的模型,有无数环节可能出错或导致训练发散,那时如同炼金术。同样,在这些强大的大型语言模型上训练强化学习,让它们进行更深入的推理思考,我能想象到,肯定有许多人屡试屡败,因为有太多关键细节需要准确把握。所以我认为这确实困难重重,需要解决许多潜在问题。当你同时遇到好几个问题时,调试就变得异常困难,可能你发现并修复了某个问题,却毫无起色,令人非常沮丧。到某个地步,你甚至可能觉得此路不通。然而,往往需要反复迭代修正,直到各环节协同一致,整个系统才能开始展现威力。我们去年就看到了一些非常酷的初步迹象:仅通过强化学习,模型就开始运用‘思考’能力,并且在思考过程中,我们就观察到了有趣的现象,如自我修正、探索不同思路等。这正是我们期望从强化学习中自然涌现的能力,但在实验中亲眼证实前,我们并不确定其可行性。

02 训练倾向选择最简洁有效的方法

并结合利用人类数据与模型涌现能力

主持人提问:您个人如何分配时间在阅读文献和动手实践之间?是否有AI工具帮助您处理信息洪流?在训练模型的认知行为时,团队在多大程度上主动塑造和培育这些行为,又有多少是观察到它们自然涌现的?是否观察到思维链中语言切换或其他“异常”行为,并采取了措施抑制,还是通过设置先验使其不出现?获取人类记录的解决问题过程数据(非思维链独白)是否有价值,实际操作中获取这类数据的现状如何?

Jack Rae 实录:关于阅读研究文献与实际编程、实验等工作的时间分配,某种程度上受职业发展阶段影响。早期我会花大量时间阅读文献,学习跟进进展。现在作为需要指导研究方向的角色,面临大量已知问题但无现成解决方案,更多需要和团队共同探索发现。因此,相比五到十年前,我现在阅读文献的时间确实大幅减少了。当然,看到别人的好想法仍觉有启发。我还是会用 X (推特) 等关注同行动态,用 arXiv 过滤器筛选论文、博客、播客或视频。现在有价值信息传播形式多样。工具方面,我现在确实经常使用 Gemini,主要用它阅读、总结论文或就论文内容提问。它可以处理整篇论文甚至一批带参考文献的文档,并进行问答或生成摘要,这非常有用,尤其能帮我快速抓住核心思想和关键结果。Gemini 的长上下文处理能力在这方面很棒,处理长篇技术文本问答和总结表现优异,是我的首选工具。

关于训练认知行为对此大家看法不一。我们团队非常注重结果,最终选择能带来最佳结果、模型泛化能力及表现的方法。我个人倾向于选择能达成目标的最简洁方法,类似奥卡姆剃刀。若能对模型认知能力施加尽量少的先验假设,让模型能力更多从数据中学习,这通常是更好的路径。尽管如此,我们实际探索各种可能:利用人类数据,也用基于模型的合成蒸馏数据,若某些能力能通过端到端强化学习自然涌现,我们也会尝试。在确定最终模型的‘配方组合’时,主要看哪种效果最佳,同时倾向于选择更简洁、泛化能力更强的方法。具体训练细节在快速迭代中,不能深入透露,但这些是我们遵循的基本原则。

关于思维链异常行为我们的最终原则是希望模型利用思考 Token 成为更智能、表现更优的模型。思考 Token 中可能出现些许异常,如循环重复或生成无用文本,但若最终有助于模型解决问题,一种理念是应允许其存在,将其视为模型的‘草稿空间’。尽管如此,我们确实注意到关于模型‘思考’内容的一些现象。其一,Gemini 的思考过程通常用英文进行,即使处理非英语推理任务时也倾向于英语思考。这就引发讨论:这是否影响产品体验?或者若用英语思考有助于表现出色,是否就应允许?可以说,Gemini 的思考过程倾向于不切换语言。另一观察是,部分思考内容,尤其在初代 Flash thinking模型中,显得相当模板化,常选择公式化结构分解问题。我们不希望思考过程高度模板化,它应是自然的,体现模型真正思考,而非套用模板导致未充分利用计算资源。此外,思考 Token 需考虑效率和最大化提升模型能力。这些都是我们持续关注和思考的问题。

关于获取人类过程数据,你的问题可分为两部分:获取“过程数据”(了解如何得出结果)和思维链(过程数据实例)。让人们忠实记录真实思维链很难,因思维过程很大程度上是隐性的。实际上,模型能进行逐步推理,部分原因在于预训练数据中已包含大量人们详述思考过程的范例(如写作、报告、在线讨论)。这就是为何即使未引导,用“让我们一步步思考”提示,模型也能零样本推理。然而,当明确要求人们记录解决问题的推理步骤时,似乎很难从中获得太多价值。但这与你问题中关于记录“过程”本身有所不同。获取更多关于人们在自然状态下解决任务过程的训练样本非常有价值。我只是不确定人们是否擅长描述自己的内心独白,以及基于这种刻意描述进行训练的效果如何。当我说记录“过程”时,我设想的更多是解决相对开放的任务场景,其中涉及大量中间计算或执行某些行动。但这部分问题已延伸到如何获取更多主体性/代理性数据等领域,这并非我的专长。

03

思维链是模型的“草稿空间”,核心价值在于提升最终结果

主持人提问:AI Studio 中看到的思维链是完整、原始、未经修改的吗?AI Studio 和 Gemini 应用展示的内容是否不同?当初决定分享完整思维链时,内部有哪些考量或不同意见,特别是考虑到竞争对手可能利用其进行蒸馏等工作?对于 OpenAI 论文提出的在思维链上进行强化学习可能导致“混淆奖励黑客”的担忧,您怎么看?是否认为不应对思维链质量进行过度干预是禁忌,还是存在安全优化的方法?您认为推理能力与 AI Agent 的主体性/代理性行为之间是何关系,是否存在明显区别?

Jack Rae 实录:是的,我们在 12 月发布 Gemini,并在 1 月更新至 1.5 Pro。在这些版本中,无论通过 AI Studio 还是 Gemini 应用,你看到的都是模型输出的原始思维链 Token。如何最好地呈现这些信息,是我们持续探讨的问题,尚无定论。用户确实喜欢看到原始 Token,但它们可能非常冗长。我们或许可以提供更有用的摘要或进行其他形式的转换,例如 NotebookLM 中类似带有图谱的思维浏览器功能。这仍是一个新兴领域,我们尚未确定展示思维链的最佳方式。目前呈现的只是原始内容。

关于分享决策这类决策通常是综合安全团队、研究人员及领导层等多方意见的结果,过程相当复杂,我无法提供明确流程。每次发布前都会仔细权衡利弊。我个人并未参与此决策。我的工作是确保模型本身足够强大,提供丰富选项。这仍是积极探索的领域。至于 OpenAI 为何选择展示摘要,我不清楚具体原因,相信是多种因素综合结果,不仅是防止蒸馏。有团队担心展示思维链可能需对其进行 RHF 使其更友好,但这可能无意中鼓励模型产生误导性思维。另一种观点认为思维链对可解释性有益。关于如何处理和呈现思维链仍在广泛讨论中。我主要关注确保思维链能带来更准确的答案和更强的模型能力。

关于思维链强化学习风险,我们目前展示思维链,是作为实验性模型发布的一部分,旨在收集反馈并从真实用户行为中学习,这是技术发布的关键环节。我们会认真对待反馈,观察功能实际使用情况,并据此在未来就如何呈现思维链信息做出更明智的决策。安全是此决策过程中的重要考量因素。一个稳妥的出发点是:我们期望思维链能切实提升模型的事实性、安全性和能力,希望模型拥有这样的“草稿空间”。同时,若要展示思维链,我们希望其是可解释的,并能忠实地反映模型的实际计算过程。我们可能不希望引入鼓励模型产生欺骗行为的训练目标。因此,你提到的担忧是有道理的。

关于推理与主体性它们绝对是紧密相关的。从研究角度看,推理与主体性/代理性行为高度耦合。但可以区分不同的研究重点,例如关于行动本身以及为 AI Agent 创建环境的关键问题。我们有专门的优秀团队负责这部分工作,研究领域有所划分。我们负责‘思考’的领域,主要在涉及行动或响应背后的推理层面与他们合作。

04

AGI需在后训练中学习新技能,潜空间推理若可解释则前景广阔

主持人提问:您是否认同这种理解:预训练决定模型掌握的概念(特征),后训练决定模型运用这些概念的行为模式?预训练与后训练的界限是否正在模糊,未来会否演变成连续统一体?模型是在后训练阶段学习新概念,还是主要在预训练阶段掌握?随着后训练算力占比提升,学习方式会改变吗?如何看待在潜空间进行推理(如Meta论文所述)?是否因其“黑箱”特性而应视为禁忌,还是存在安全运用途径?您对机制可解释性技术的整体前景持何看法,它能否跟上模型能力的发展速度,让我们在强AI出现时能理解其内部运作?对于“柏拉图模型假说”(不同模型随规模增长趋同于统一世界模型),您在多大程度上认同?若成立,是否意味着更大规模模型更易解读?

Jack Rae 实录:我很大程度上同意你的看法,可以这样表述:预训练可视为学习一个庞大的函数逼近器集合,使模型能模拟数据的整体分布,包括各种好坏行为、强弱推理能力等。其根本目的是反映所有行为类型并侧重于‘理解’数据,预测下一个 Token 能力越强,压缩效率越高,可能意味着对数据分布理解越深刻。后训练阶段则会‘舍弃’分布中的许多模式和行为,专注于特定的推理、响应或行动方式,以更好地完成重要任务。理想情况下,若强化学习效果好,模型还能学会组合运用基础技能,构建更高级能力,以应对更重要任务。

关于后训练学习新概念我的看法是,模型必须在后训练阶段学习新概念。若要构建AGI,模型在强化学习阶段就必须掌握新技能,而不能仅仅是调整已有的概念,这一点极为关键。尤其是期望模型最终能在核心任务上全面超越人类时,它便不能只依赖于复用预训练阶段通过行为克隆学到的知识。这正是当前研究中最激动人心的方向之一:如何利用强化学习的组合效应,驱动模型能力实现螺旋式提升,使其变得极其强大、通用和稳健。我坚信,关键就在于强化学习阶段。

关于潜空间推理我个人认为,在一项技术得到充分研究和理解之前就对其设立禁区是不可取的,除非有极其充分的理由。就潜空间推理而言,争议核心在于可解释性。我们需要确保所用潜向量可解释。我想用 MuZero 类比:MuZero 在潜向量空间进行推演,而非具体状态,但这些潜向量仍可解码回具体状态,保留了可解释性。在潜空间搜索让 MuZero 获得显著优势。这表明潜空间推理很可能是一个非常有前景的研究方向,在现阶段不应被排除。若能提升模型思考能力且做到可解释和安全可控,探索这个方向就是理所当然的。

关于可解释性前景,模型能力确实在飞速发展,但我认为这种能力提升同样也会加速机制性可解释性的研究进展。更强大的模型本身就为我们提供了研究其内部运作的更强大工具。因此,我不认为必然会出现能力指数增长而可解释性线性增长导致的巨大鸿沟,倾向于相信两者会同步发展。无论是潜向量还是 Token 表征,我们都需要高质量研究、工具和方法来追踪模型内部表征与计算过程的关联,并理解其如何影响最终输出。这是极其重要的研究课题。Anthropic 的工作很出色,Gemini 内部也有顶尖研究人员在攻关。解决可解释性问题是必须面对的挑战,因为用户需要这种透明度和可理解性。

关于柏拉图模型假说,您的意思是,随着所有不同模型在训练中规模不断扩大,它们会开始表现出更强的趋同性吗?这些模型是否正在趋同于某种对现实的真实表征?我唯一有较强理论把握的是关于预训练阶段。预训练目标是降低困惑度、提升压缩效率。理论上,最优压缩器必然内化了数据生成过程的最佳模型(可追溯至信息论)。但这更像哲学推演,并非构建 AGI 的全部。AGI 不仅要理解现有模式,还要执行任务、遵循指令、处理未知问题、泛化到新环境,这些都超出了单纯基于预训练的“世界模型”范畴。

我坚信预训练绝非构建 AGI 的唯一要素。因此,我或许部分认同该假说理论上的可能性,但不认为它描绘了完整图景。一旦进入大规模强化学习训练阶段,我认为这些模型绝对不会趋同于单一模型。如何负责任地做好这个阶段的训练,直接关系到能否构建出真正有用的系统。现实中我们已看到不同模型展现显著差异,各有优劣。像我们在 Gemini 内部的工作,就需要非常有针对性地去开发和增强模型在特定领域的能力,这些并非所有模型都能自然涌现。因此,目前模型发展方向感觉仍是高度可控和可引导的,而非必然汇聚到唯一终极世界模型的过程。当然,我并非哲学家,主要专注于技术实践。

05 AGI需要推理、智能体和记忆系统的协同突破

主持人提问:从当前状态通往 AGI 的宏观路线图是怎样的?持续扩大上下文窗口规模是否足够解决记忆问题,还是需要更集成的记忆与遗忘机制等概念性突破?您是否认为记忆问题已基本解决?在通往 AGI 的道路上,整合更多模态(如文本与图像的深度融合扩展到生物信息等)扮演什么角色?是倾向于单一深度融合的世界模型,还是保留独立专家系统作为工具调用?Gemini 2.5 Pro 的系统卡片何时发布?是否有规定模型满足何种条件才能发布完整技术报告?目前所有的安全测试都完成了吗?红队演练过程是否包括第三方测试人员,例如 Apollo、Haze Labs 等机构?技术报告发布时会包含外部合作伙伴名单吗?

Jack Rae 实录:这是个好问题。记忆这个主题对我启发很大,我博士研究的就是稀疏持久记忆用于终身推理。当初从未设想过今日进展,我们已有能处理百万乃至千万 Token 上下文的模型,开始逼近“终身”时间尺度。但我仍不认为记忆问题已彻底解决,远未终结。未来定会有激动人心的突破。DeepMind 曾有神经图灵机等绝佳构想,融合大型注意力与读写机制。我预感此方向某些成果可能最终胜出,实现极长、无限乃至终身记忆的高效途径。但这仍是活跃研究领域。

至于通往 AGI 的路线图,我们构建的每个模块似乎都能很好地产生叠加效应。长上下文技术与推理思考工作实现了绝佳整合,能够对问题进行极长时间、极深入的思考,并利用海量上下文,这两者存在极有价值的耦合,助我们攻克了诸多额外难题。

我认为,在通往 AGI 的余下征途中,AI Agent 无疑是优先级极高的领域。思考与推理方面仍未抵达终点,要让模型足够可靠、通用,能在开放任务中被信任,仍有漫长的路要走。因此仍有大量工作要做,持续改进系统,攻克已知瓶颈。须让思考能力更强,同理,也要让 AI Agent 更强大。我预感,若能结合大幅改进的智能体能力、更强的推理能力,以及理想状况下更优的记忆系统(具备近乎终身范围的跨时间理解与推理能力)——届时,对许多人而言,那才真正称得上是AGI

就我个人而言,当前系统已颇具 AGI 雏形,Gemini 2.5 Pro 能零样本处理复杂代码库,三年前尚属未来科技。这些能力的组合——更优记忆、更深思考推理、与多种工具交互、高度开放行动空间——才会真正带来 AGI 的体验。具体何时降临难预测,但所有相关技术均在积极研发,感觉其脚步日益临近。

关于多模态整合,Gemini 从一开始就设计为多模态模型,在图像、视频理解方面一直强劲。Gemini 1 内部已训练原生图像生成能力。实现万物的深度多模态化至关重要,训练所有数据让世界模型覆盖文本、视频、图像、音频。这一直是 Gemini 的亮点。用户喜爱原生图像生成功能,乐见即时编辑交互,而非静态输出。任何能引入世界模型并联合训练的元素,都将带来更深层次体验与理解。问题是界限何在?如何决定何时将某些元素纳入预训练数据组合?当前策略是优先选用信息最压缩及规模最大的信息源(如文本),再逐步扩展。决定拓展至规模较小或压缩程度稍低的数据源(如基因组学)颇具挑战。关键在于从既有知识迁移至新任务时存在多少正向迁移。若有限,联合训练裨益不多,可能只需作为工具使用。这些是决定整合入单一世界模型还是保留为独立专家系统的主要考量。我个人更倾向于单一世界模型的前景。

关于系统卡片与发布,对于实验性版本,我们做法是:发布模型主要是为了让消费者与开发者能尽早接触,获取真实反馈,了解局限性。它们带有“实验性”标签,意味着未对其进行完整的支持与部署配置,因此不一定提供系统卡片等所有配套文档。我们正全力将这些模型推向稳定状态,达到正式发布标准。待模型正式发布时,便会附带相应系统卡片。

关于安全测试,在发布模型前,我们进行了广泛、甚至可以说是行业内前所未有的大量安全测试。不过我们确实有一些实验性模型,可能经历不同层级或标准的测试。进行实验性发布的部分原因也是为了收集真实世界反馈,这对测试过程本身非常有价值。对于这些即将发布的模型,都遵循着非常标准化的流程,涉及政策团队、安全团队,并进行了大量的红队演练等工作。目前我们确实处于实验阶段,正努力推进,争取早日实现正式发布,届时将提供更完善的支持文档。上周有人问模型何时能在 Vertex 上可用,我说快了,结果第二天就上线了。有时我们倾向于保守承诺、超额交付。进展确实非常迅速。

关于红队演练,我们发布的 Gemini 技术报告,通常会详细说明外部红队演练情况。但现阶段我无法透露具体合作伙伴。不总是公开伙伴身份是有理由的。但可以肯定,我们确实与外部红队演练者合作。至于技术报告发布时是否会包含外部合作伙伴名单,我需要确认,但据我所知,过去的技术报告中确实会提及。

06 用户反馈与未来展望:长上下文能力的革新体验

主持人提问:试用 Gemini 2.5 Pro 一段时间后,感觉它是否带来了前所未见的新功能或可能性?有何具体使用反馈?最后,还有什么我们没讨论到、而你想分享给大家的想法或概念吗?

Jack Rae 实录:我很好奇,你试用 2.5 Pro 一段时间了,有没有感觉它带来了前所未见的新功能或可能性?或者有什么使用反馈?

听到你关于长上下文能力的反馈真是太好了。去年我们为实现最初技术突破而努力时,我和许多研究长上下文的同事一起工作。而且,我和一些以前长期在预训练团队、后来特别专注于提升 2.5 Pro 长上下文能力的同事也经常交流。我们投入了大量工作,不仅是在初始阶段将上下文长度提升到 100 万、200 万 Token(未来还会更长),还要让它真正有效。随着 2.5 Pro 的发布,有一个外部排行榜显示在处理 128k Token 上下文时,Gemini 2.5 Pro 的效率远超当前几乎所有其他模型。这很了不起。它不仅能处理百万级 Token,而且现在尤其在 2.5 Pro 上,给人的感觉是它阅读并理解了所有内容,不会丢失信息,不会错过关键细节,就像仔细研究了所有信息。这种能力确实给了人们一种接近 AGI 的感觉,仿佛一秒钟内就研究透了一个非常庞大的代码库,对每个细节都有相当深入的理解。这确实非常了不起。听到你的反馈真是太好了。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料欢迎扫描二维码或访问进入。

牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》

麦肯锡:超级智能机构:赋能人们释放人工智能的全部潜力

AAAI 2025 关于人工智能研究未来研究报告

斯坦福:2025 斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191 页)

壳牌:2025 能源安全远景报告:能源与人工智能(57 页)

盖洛普 & 牛津幸福研究中心:2025 年世界幸福报告(260 页)

Schwab :2025 未来共生:以集体社会创新破解重大社会挑战研究报告(36 页)

IMD:2024 年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214 页)

DS 系列专题:DeepSeek 技术溯源及前沿探索,50 页 ppt

联合国人居署:2024 全球城市负责任人工智能评估报告:利用 AI 构建以人为本的智慧城市(86 页)

TechUK:2025 全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52 页)

NAVEX Global:2024 年十大风险与合规趋势报告(42 页)

《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页

2025 - 2035 年人形机器人发展趋势报告 53 页

Evaluate Pharma:2024 年全球生物制药行业展望报告:增长驱动力分析(29 页)

【AAAI2025 教程】基础模型与具身智能体的交汇,350 页 ppt

Tracxn:2025 全球飞行汽车行业市场研究报告(45 页)

谷歌:2024 人工智能短跑选手(AI Sprinters):捕捉新兴市场 AI 经济机遇报告(39 页)

【斯坦福博士论文】构建类人化具身智能体:从人类行为中学习

《基于传感器的机器学习车辆分类》最新 170 页

美国安全与新兴技术中心:2025 CSET 对美国人工智能行动计划的建议(18 页)

罗兰贝格:2024 人形机器人的崛起:从科幻到现实:如何参与潜在变革研究报告(11 页)

兰德公司:2025 从研究到现实:NHS 的研究和创新是实现十年计划的关键报告(209 页)

康桥汇世(Cambridge Associates):2025 年全球经济展望报告(44 页)

国际能源署:2025 迈向核能新时代

麦肯锡:人工智能现状,组织如何重塑自身以获取价值

威立(Wiley):2025 全球科研人员人工智能研究报告(38 页)

牛津经济研究院:2025 TikTok 对美国就业的量化影响研究报告:470 万岗位(14 页)

国际能源署(IEA):能效 2024 研究报告(127 页)

Workday :2025 发挥人类潜能:人工智能(AI)技能革命研究报告(20 页)

CertiK:Hack3D:2024 年 Web3.0 安全报告(28 页)

世界经济论坛:工业制造中的前沿技术:人工智能代理的崛起》报告

迈向推理时代:大型语言模型的长链推理研究综述

波士顿咨询:2025 亚太地区生成式 AI 的崛起研究报告:从技术追赶者到全球领导者的跨越(15 页)

安联(Allianz):2025 新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33 页)

IMT:2025 具身智能(Embodied AI)概念、核心要素及未来进展:趋势与挑战研究报告(25 页)

IEEE:2025 具身智能(Embodied AI)综述:从模拟器到研究任务的调查分析报告(15 页)

CCAV:2025 当 AI 接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124 页)

《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页

《面向科学发现的智能体人工智能:进展、挑战与未来方向综述》

全国机器人标准化技术委员会:人形机器人标准化白皮书(2024 版)(96 页)

美国国家科学委员会(NSB):2024 年研究与发展 - 美国趋势及国际比较(51 页)

艾昆纬(IQVIA):2025 骨科手术机器人技术的崛起白皮书:创新及未来方向(17 页)

NPL&Beauhurst:2025 英国量子产业洞察报告:私人和公共投资的作用(25 页)

IEA PVPS:2024 光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65 页)

AGI 智能时代:2025 让 DeepSeek 更有趣更有深度的思考研究分析报告(24 页)

2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37 页)

华为:2025 鸿蒙生态应用开发白皮书(133 页

《超级智能战略研究报告》

中美技术差距分析报告 2025

欧洲量子产业联盟(QuIC):2024 年全球量子技术专利态势分析白皮书(34 页)

美国能源部:2021 超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60 页)

罗马大学:2025 超级高铁(Hyperloop):第五种新型交通方式 - 技术研发进展、优势及局限性研究报告(72 页)

兰德公司:2025 灾难性网络风险保险研究报告:市场趋势与政策选择(93 页)

GTI:2024 先进感知技术白皮书(36 页)

AAAI:2025 人工智能研究的未来报告:17 大关键议题(88 页)

安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告

威达信:2025 全球洪水风险研究报告:现状、趋势及应对措施(22 页)

兰德公司:迈向人工智能治理研究报告:2024EqualAI 峰会洞察及建议(19 页)

哈佛商业评论:2025 人工智能时代下的现代软件开发实践报告(12 页)

德安华:全球航空航天、国防及政府服务研究报告:2024 年回顾及 2025 年展望(27 页)

奥雅纳:2024 塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28 页)

HSOAC:2025 美国新兴技术与风险评估报告:太空领域和关键基础设施(24 页)

Dealroom:2025 欧洲经济与科技创新发展态势、挑战及策略研究报告(76 页)

《无人机辅助的天空地一体化网络:学习算法技术综述》

谷歌云(Google Cloud):2025 年 AI 商业趋势白皮书(49 页)

《新兴技术与风险分析:太空领域与关键基础设施》最新报告

150 页!《DeepSeek 大模型生态报告》

军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态 - 250309(40 页)

真格基金:2024 美国独角兽观察报告(56 页)

璞跃(Plug and Play):2025 未来商业研究报告:六大趋势分析(67 页)

国际电工委员会(IEC):2025 智能水电技术与市场展望报告(90 页)

RWS:2025 智驭 AI 冲击波:人机协作的未来研究报告(39 页)

未来今日研究所 2025 年科技趋势报告第 18 版 1000 页

模拟真实世界:多模态生成模型的统一综述

中国信息协会低空经济分会:低空经济发展报告(2024 - 2025)(117 页)

浙江大学:2025 语言解码双生花:人类经验与 AI 算法的镜像之旅(42 页)

人形机器人行业:由 “外” 到 “内” 智能革命 - 250306(51 页)

大成:2025 年全球人工智能趋势报告:关键法律问题(28 页)

北京大学:2025 年 DeepSeek 原理和落地应用报告(57 页)

欧盟委员会 人工智能与未来工作研究报告

加州大学伯克利分校:面向科学发现的多模态基础模型:在化学、材料和生物学中的应用

电子行业:从柔性传感到人形机器人触觉革命 - 250226(35 页)

RT 轨道交通:2024 年中国城市轨道交通市场数据报告(188 页)

FastMoss:2024 年度 TikTok 生态发展白皮书(122 页)

Check Point:2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议(57 页)

【AAAI2025 教程】评估大型语言模型:挑战与方法,199 页 ppt

《21 世纪美国的主导地位:核聚变》最新报告

沃尔特基金会(Volta Foundation):2024 年全球电池行业年度报告(518 页)

国际科学理事会:2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告(英文版)(118 页)

光子盒:2025 全球量子计算产业发展展望报告(184 页)

奥纬论坛:2025 塑造未来的城市研究报告:全球 1500 个城市的商业吸引力指数排名(124 页)

Future Matters:2024 新兴技术与经济韧性:日本未来发展路径前瞻报告(17 页)

《人类与人工智能协作的科学与艺术》284 页博士论文

《论多智能体决策的复杂性:从博弈学习到部分监控》115 页

《2025 年技术展望》56 页 slides

大语言模型在多智能体自动驾驶系统中的应用:近期进展综述

【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用

皮尤研究中心:2024 美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28 页)

空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理 - 250224(33 页)

Gartner:2025 网络安全中的 AI:明确战略方向研究报告(16 页)

北京大学:2025 年 DeepSeek 系列报告 - 提示词工程和落地场景(86 页)

北京大学:2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用(99 页)

CIC 工信安全:2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42 页)

中科闻歌:2025 年人工智能技术发展与应用探索报告(61 页)

AGI 智能时代:2025 年 Grok - 3 大模型:技术突破与未来展望报告(28 页)

上下滑动查看更多

来源:人工智能学家

相关推荐