《通向AGI之路-2025全球人工智能展望报告》重磅发布

B站影视 内地电影 2025-09-20 22:15 1

摘要:当前,人工智能正朝着AGI的方向迈进。伴随技术突破与产业应用的深度融合,人工智能进入全新发展阶段。2025年被视为“智能体元年”,AI Agent已成为驱动产业变革的核心力量。智能体通过自主任务规划、动态决策与闭环执行,实现从被动响应指令到主动解决复杂问题的跨

2025年9月13日,北京

当前,人工智能正朝着AGI的方向迈进。伴随技术突破与产业应用的深度融合,人工智能进入全新发展阶段。2025年被视为“智能体元年”,AI Agent已成为驱动产业变革的核心力量。智能体通过自主任务规划、动态决策与闭环执行,实现从被动响应指令到主动解决复杂问题的跨越。与此同时,各类AI硬件迎来新一轮迭代升级,从轻量化AI眼镜到便携AI录音卡片,硬件设备在便携性与场景适配性方面不断突破。“多模态模型”进一步打破技术边界,实现语言理解、视觉识别、音频处理等核心能力的深度融合。“世界模型”扮演更为重要的角色,基于内在模拟理解现实世界的物理与因果结构,通过预设未来场景指导决策。

在2025年9月13日于北京举办的PEC 2025 AI创新者大会上,天津市人工智能学会、中关村科学城公司、深圳市人工智能行业协会、至顶科技、至顶智库、与非网联合发布《通向AGI之路—2025全球人工智能展望报告》。报告从AGI特征出发,全面总结全球人工智能产业的主要参与者、典型产品和应用,对AGI发展的关键领域、核心技术进行分析解读,并呈现当前关注度较高的智能体、AI硬件及应用进展。最后,报告对AGI的未来发展方向进行展望。报告为政府部门、行业从业者、教育工作者以及社会公众更好了解2025年全球人工智能的发展进程,以及探索通向AGI的前进路径提供参考。

作为报告的重要组成部分,2025全球人工智能全景图谱正式发布,图谱包含应用硬件层、模型层以及基础设施层。其中,应用硬件层广泛覆盖各细分领域,涉及智能体、智能助手、智能硬件、具身智能、C端/B端各类应用;模型层包含多模态基础模型、图像模型、视频模型、语音模型、推理模型、开源模型;基础设施层涵盖AI芯片、AI服务器、AI计算集群、开发平台、数据服务。

2025全球人工智能全景图谱








通向AGI之路-2025全球人工智能展望报告

至顶智库认为,人工智能的总体发展阶段从弱人工智能(ANI)、通用人工智能(AGI)再到超级人工智能(ASI)。其中,通用人工智能是当前重要的发展方向,虽然业界并没有对AGI的定义达成一致,但总体来看,AGI主要是指在跨领域达到人类认知能力的智能。关于AGI落地时间,全球人工智能领域的相关专家纷纷做出预测。xAI创始人Elon Musk较为乐观,他认为AGI已初具雏形,有望在2026年到来。Google DeepMind联合创始人兼首席执行官Demis Hassabis与Meta首席AI科学家Yann LeCun均认为AGI会在2030到2035年到来。图灵奖得主Geoffrey Hinton则持相对保守的立场,预测AGI将在2030到2045年到来。



至顶智库对于全球人工智能的发展路线(2024.10-2025.9)进行全面梳理,从近一年的发展情况来看,全球主流科技公司推出多款开源模型、多模态模型和世界模型,此外,智能体也成为各家厂商竞争的焦点领域。路线图在一定程度反映出主要参与方在通向AGI发展进程中所采取的重要举措。



通用人工智能的不断演进主要由四大因素驱动。一是模型推理能力的不断跃升。DeepSeek相关模型在性能上达到全球开源模型的顶尖水平。二是强化学习的不断迭代。如GRPO等新型算法通过组内相对奖励机制,解决传统PPO算法对价值函数的依赖问题。三是算力基建的持续投入。美国“星际之门”计划未来四年投资5000亿美元构建AI基础设施,为大规模AI模型训练和推理提供算力基础。四是开源生态的广泛构建与繁荣共享。Hugging Face汇聚超6000个可部署开源模型,推动前沿技术快速转化为生产力,构建全球协作的创新网络。

大模型通过多种推理路径适应不同任务需求。基础范式包括直接输出(Direct)和思维链(CoT)推理。自一致性(Self-consistency)与多重思维链(Multiple CoT)通过生成多条推理路径并采用投票机制,为不确定性任务进行方案择优。面对需要多路径探索的复杂任务,思维树(ToT)引入树状结构,支持分支评估与回溯机制,实现不同路径之间的探索。最新提出的思维图(GoT)则突破树状结构的限制,利用图结构实现路径间的动态聚合与信息重组,为更复杂的非线性推理问题提供更优的解决思路。

MoE(Mixture of Experts)架构中,输入数据通过前馈神经网络(Feed-Forward Neural Network, FFNN)与激活函数处理,再由门控机制为每个专家分配激活概率。在稠密MoE架构中,所有专家均被激活参与计算,最终输出为各专家结果的加权和;在稀疏MoE架构中,仅激活其中若干专家(如图中激活FFNN1),以提高推理效率并降低计算资源开销。该机制实现在保持模型性能的同时,优化推理效率,适用于大规模参数部署。近年来,大模型已引入MoE架构以提升参数利用率和训练扩展性。

近年来,AI芯片已成为驱动人工智能发展的核心引擎,尤其在大模型训练和推理中,算力、内存带宽和互联技术直接决定模型迭代更新速度。当前,国际主流芯片厂商正围绕高性能计算、低精度格式和系统级优化展开激烈竞争,推动AI芯片向更高性能演进。NVIDIA凭借其Blackwell架构与Rubin架构持续领跑,保持其在高端训练和推理芯片市场的领导地位;Google依托自研TPU深化软硬件垂直整合,强化其云计算和AI服务的底层能力;AWS通过自研Trainium训练芯片与Inferentia推理芯片的协同部署,提供云端算力解决方案。

超节点是一种通过单节点内增加芯片数量,具备超高互联带宽、纵向扩展与集成化等优势的方案,在性能、成本、组网、运维等方面表现突出。超节点能够提供超高互联带宽与超低通信时延,有效支撑并行计算任务,缩短模型训练周期,提升整体可靠性。华为推出的Atlas 900 A3 SuperPoD(昇腾384超节点),通过总线技术实现384个NPU之间大带宽低时延互联,优化资源调度以满足AI训练与推理需求;浪潮信息发布的元脑SD200,可实现单机内运行超万亿参数大模型,并支持领先大模型机内同时运行及多智能体实时协作与按需调用;昆仑芯发布的超节点方案通过硬件创新提升全互联通信带宽,支持IB/ROE跨域低延迟传输,助力万卡级智算集群建设。超节点方案正推动AI计算集群向更高效、可靠的方向发展。

智能体(AI Agent)是一种基于大模型的高自主性智能系统,可凭借强大的语言理解能力与内容生成能力实现对环境的实时感知,并通过自主规划与调用工具完成复杂目标。智能体具备记忆、自主规划、工具调用与自动执行复杂任务四大核心能力。相较于AI助理,智能体在工作目标导向、交互维度、任务处理范围、自主程度、记忆、工具使用等方面均实现突破,凭借其特有的自主感知与规划执行能力,实现从智能助理被动调用单一功能到智能体自主解决复杂任务场景的转变。

智能体的技术架构主要由感知、认知与执行三大模块组成。其中,感知模块负责处理环境感知,接收用户输入、外部数据以及动态反馈等一系列信息并进行解析;认知模块分为情感、奖励、记忆、目标与世界模型五个部分,作为智能体的认知基础,与执行模块协同运转,使智能体能够完成“感知—规划—工具调用—行动—反思”的全链路自主任务流程,最后将任务结果重新输出到物理世界。

当前,行业智能体应用领域持续拓宽,场景创新不断深化。智能体凭借“环境感知—自主决策—动态执行”的核心能力,已在金融、医疗、工业、教育、政务、电信等领域得到广泛应用,显著提升各行业效率并创造新服务模式。在金融领域,智能体根据金融机构的独特需求和长尾业务进行深度定制,具有高度的针对性和专业性;在工业领域,智能体成为支持行业发展的“数字大脑”,推动新型工业化的核心引擎;在教育领域,智能体为师生教与学提供实时、个性化、启发式服务。

MCP(Model Context Protocol)是由Anthropic提出的一套标准化交互协议,旨在创建一个通用标准,使AI应用程序的开发和集成变得更加简单,使得开发者能够以一致的方式将各种数据源、工具和功能链接到AI模型,为Agent开发提供支持。作为重要交互协议,MCP使得AI模型和应用开发进一步解耦,显著降低Agent的开发门槛。MCP Server标准化封装,本质上为模型及智能体提供更细粒度、轻量化的工具调用能力,降低智能体对复杂工具的调用门槛。

Meta、小米、夸克、雷鸟、Rokid、影目等推出多款AI眼镜,产品销量呈现爆发式增长。Meta发布的AI眼镜兼具时尚外观和实用功能,在全球范围引发广泛关注。在2025世界人工智能大会上,阿里夸克推出的AI眼镜具有多重优势:硬件层面,夸克AI眼镜进行系统重构,采用双芯双系统设计;AI能力层面,夸克AI眼镜实现从基础语音指令到自然对话系统的跨越;生态整合层面,夸克AI眼镜深度融合阿里及支付宝生态,为用户带来更智能、便捷的穿戴体验。阿里夸克依托在硬件领域的积累,基于通义千问模型能力,打造实用好用的AI眼镜。

端到端自动驾驶为高级别自动驾驶发展提供全新的技术路径。基于统一的神经网络从传感器数据输入直接到控制指令输出的连续学习与决策过程。核心技术主要体现在数据采集标注、训练算法、模型设计训练、模型压缩等方面。端到端自动驾驶模型依赖数据闭环实现算法性能持续提升;训练算法旨在通过数据闭环建立原始传感器输入到驾驶规划控制指令的映射,提高自动驾驶系统性能和安全性;模型设计训练分为“分模块模型”和“单模型架构”两种;模型压缩主要包括模型剪枝、模型量化和编译优化,旨在降低网络计算需求,提升车载计算平台的运行速度。

Deep Research(深度研究)作为当前信息处理与知识发现领域的重要功能,核心价值在于突破传统信息检索的局限,实现从信息搜集到深度洞察的跃迁。深度研究由任务拆解、信息搜索、分析推理,交叉验证和结果输出五个核心步骤构成,可实现输出结果的专业严谨。该功能正逐步成为现代知识工作者(如研究人员、分析师、决策者、产品开发者)不可或缺的智能伙伴,能够大幅提升信息处理效率与认知深度,成为释放人类专业潜能、驱动复杂问题解决与知识创新的关键应用。

当前,AI编程正在深刻重构软件开发范式,其核心能力已突破传统辅助工具的边界,形成覆盖AI编程多环节的解决方案。从全球格局来看,AI编程已进入规模化应用阶段,国外以基础模型创新和自主智能体开发为主导,重视通用性与开发者体验;而国内重视工程化工具链整合,强调行业落地与本土化适配,形成差异化竞争格局。从编程环节来看,基于大规模预训练模型的代码生成系统能够准确理解开发者意图,完成从自然语言描述到可执行代码的转换,同时支持多编程语言和复杂算法实现,可针对特定代码库提供优化建议,实现代码补全、错误识别到代码优化的闭环。

世界模型成为推动人工智能加速迈向AGI的关键驱动力。世界模型不仅能够理解物理世界的现状,还能预测其未来潜在的一系列动态变化。世界模型的应用场景已覆盖具身智能、自动驾驶、游戏开发及场景生成等领域,展现出广阔的应用潜力。从研发情况来看,全球主要科技企业和研究机构已推出多个世界模型,如Google发布的Genie 3、Meta发布的V-JEPA 2、达摩院发布的WorldVLA,从架构创新到场景落地持续深化探索,推动人工智能发展迈向新阶段。

多模态模型是一类能整合文本、图像、视频等多源数据的模型。其核心在于突破单模态局限,通过跨模态交互实现信息融合与协同推理。此类模型多数依托Transformer架构,通过线性探测、稀疏自编码器等方法解析模态间关联,主要包括对比性视觉语言模型、生成式视觉语言模型及文本到图像扩散模型三大类型。在应用层面,多模态模型覆盖图像生成、视觉问答、图像检索、模型编辑、可控生成等丰富场景,能在复杂任务中展现精准干预能力。

随着模型规模的不断扩大和应用范围的不断拓展,Transformer架构面临诸多挑战,而非Transformer架构突围正推动模型走出一条创新发展路径。目前,非Transformer架构以状态空间模型与线性架构、液态神经网络架构、类脑与仿生架构、混合架构为代表。基于不同类型涌现出一系列性能更好、解决能力更强的模型,尤其在并行计算、推理效率上表现突出。非Transformer架构呈现混合化创新趋势,新型RNN架构崭露头角,与Transformer架构改进路线一并推动人工智能发展。

Helix是Figure AI提出的首个“双系统”视觉-语言-行动(Vision-Language-Action)模型,用于实现人形机器人上半身的高频灵巧控制。其由两个核心部分组成:系统2(System2)是一个基于70亿参数的预训练视觉-语言模型,对环境图像和自然语言指令进行场景理解与语义推理,并将关键信息压缩为一个连续的潜在向量;系统1(System1)是一个约8000万参数的视觉-运动转换器模型,将来自系统2的潜在向量与机器人状态结合,输出包括手腕姿态、手指动作以及躯干与头部控制在内的连续上半身动作。这种解耦的架构使得系统能够在不同时间尺度上最优运行:系统2负责“慢思考”的高层目标推理,而系统1实现“快反应”的实时动作执行。

如有相关问题请与至顶智库负责人联系:


至顶智库执行主任兼首席分析师 孙硕 请见下方二维码

来源:至顶网

相关推荐