GDC 2025全球开发者大会回顾:算法与算力的双重革新

B站影视 电影资讯 2025-03-09 20:48 2

摘要:2025年2月21日,全球开发者大会(Global Developers Conference, GDC) 在上海线下盛大召开。本次大会聚焦人工智能技术的最新突破,围绕算法与算力 两大核心议题展开深入探讨,展示了AI技术如何驱动产业升级与场景落地的最新成果。

本文来源于3C AGI Partners:

2025年2月21日,全球开发者大会(Global Developers Conference, GDC) 在上海线下盛大召开。本次大会聚焦人工智能技术的最新突破,围绕算法与算力 两大核心议题展开深入探讨,展示了AI技术如何驱动产业升级与场景落地的最新成果。

作为AI领域的重要盛会,GDC吸引了全球顶尖的开发者、技术专家和产业领袖参与。大会中涵盖了从算法优化到智能算力升级再到具身AI的技术探索的诸多前沿主题,深入探讨了大模型、强化学习、稀疏化技术、算力适配和机器人交互等领域的最新趋势与应用。

以下是本次大会的核心内容总结,重点阐述算法和算力的技术跃迁与突破,以及 具身智能的探索与创新。我们诚邀您跟随3C,一起探索本次大会揭示的人工智能领域的最新进展和未来趋势,并分析这些发现对投资者可能带来的影响。

1 前沿洞察:算法、算力与具身智能的最新趋势

1. 算法趋势:从Dense模型到Sparse模型,从短序列到长序列,从单模态到多模态

本届大会上,关于算法的讨论聚焦在以下几个关键趋势:

从Dense模型到Sparse模型:密集连接(Dense)模型正向稀疏(Sparse)模型转型,参数量从千亿级增长到万亿级甚至十万亿级,同时通过稀疏化技术降低计算成本,提升效率。

从短序列到长序列的演进:传统大模型多用于短序列任务,而未来的算法将进一步优化长序列建模能力,支持更复杂的输入场景,如超长对话生成、文档理解等。

从单模态到多模态的转型:模型正在从单模态任务逐步扩展到多模态融合,能够统一处理文本、图像、视频等多种数据形式,提升模型的通用感知能力。

2. 算力趋势:异构算力与开发者生态的繁荣

算力是AI技术发展的基础支撑,本次大会上也探讨了多项算力趋势:

开发者生态的爆发:算力门槛的降低正在推动开发者生态的繁荣,结合算力资源与工具链支持,开发者能够更高效地完成大模型的训练、微调和应用发布。这种趋势将进一步推动AI技术的普及,也可能对传统技术岗位带来一定冲击。

云算力的灵活性:云算力设施正在向高性能GPU集群方向发展,同时电力成本优化也成为关键考量因素。具备灵活API调用和高显存支持的云服务,能够更好地满足大模型训练和推理任务的需求。

3. 具身智能趋势:虚拟与现实的深度融合

具身智能(Embodied AI)领域也成为本次大会的重要探讨方向。相关技术正在推动虚拟智能体与物理机器人之间的深度融合,从虚拟仿真环境到实际设备执行任务的闭环正在逐步建立。未来,具身智能将在工业机器人、家庭服务和多模态交互等场景实现更多落地。

2 核心内容:算法与算力的双重革新

1. 算法:技术跃迁与未来趋势

稀疏注意力机制与长序列优化

稀疏注意力机制正在成为大模型算法优化的关键方向,尤其是在处理长序列任务时,其在计算效率和资源利用率上的优势逐步凸显。

NSA(Native Sparse Attention):硬件对齐的稀疏注意力

Deepseek最新的论文提出了 NSA(Native Sparse Attention),这是一种专为处理长序列建模而设计的新型架构,通过利用Softmax Attention的内在稀疏性提升效率。NSA在理论与实际应用中实现了真正的性能突破,其核心创新包括:

硬件对齐的推理速度优化:通过内存高效算法减少在预填充和解码阶段的计算瓶颈,实现与FlashAttention相当的推理速度。

训练感知的算法设计:引入可训练的操作符,降低训练成本,同时保留模型性能。

NSA借助Triton实现硬件对齐的稀疏Attention内核,并采用共享KV缓存(如GQA/MQA)优化大语言模型的内存和计算效率。其关键创新在于内核设计:

查询分组(GQA分组):将共享稀疏KV块的查询分组加载到SRAM中,避免了低效的内存访问模式。

双循环操作:外部循环加载查询至SRAM,内部循环获取稀疏KV块并在SRAM中完成Attention计算。这种设计最大化了算术强度,优化了内存利用率。

通过这些硬件感知的优化设计,NSA成功在理论稀疏性与实际部署之间架起桥梁,在推理和训练任务中均达到了近乎最佳的性能。

MoBA(Mixture of Block Attention):动态稀疏化的突破

月之暗面最新提出的 MoBA(Mixture of Block Attention) 架构,则通过引入动态稀疏化技术,显著降低了长序列模型的计算成本,同时保留了复杂任务中的模型表现力。MoBA的创新点在于:

块稀疏注意力(Block Sparse Attention):通过分块机制将上下文分割为多个块,并采用门控机制(Gating Mechanism)为每个查询Token动态选择最相关的KV块,从而降低计算成本。

动态路由:引入类似Mixture of Experts(MoE)的动态选择策略,使每个查询Token仅与相关块交互,从而实现高效的计算分配。

实验结果表明,MoBA显著提升了长序列任务的效率,尤其在涉及大量上下文信息的任务中表现出色。其架构不仅减少了训练和推理成本,还为长序列建模提供了可扩展的解决方案。

推理与强化学习的结合:PPO与GRPO的对比

在推理与强化学习的结合领域,阶跃星辰在GDC的开放日提到了他们在强化学习算法领域的最新研究。

Deepseek团队的R1论文曾经介绍了 GRPO(Grouped Policy Optimization),一种无需值模型的强化学习方法。GRPO通过分组评分替代传统的值函数估计,大幅降低了训练资源需求。当与Deepseek-V3-Base模型结合时,GRPO在数千次强化学习步骤后展现出强大的推理能力,并在推理基准测试中表现优异。

PPO的极简优化与开源突破

然而,Harry Shum和姜大昕团队的研究表明,GRPO并非推理模型的必要条件。他们提出了一种极简的强化学习方法,基于标准PPO(Proximal Policy Optimization)与GAE(广义优势估计)相结合,辅以简单的规则化奖励策略,成功开发了 Open-Reasoner-Zero——首个开源大规模推理强化学习框架。

低资源成本:与Deepseek-R1-Zero-Qwen-32B对比,该方法仅需1/30的训练步骤即可在GPQA Diamond基准测试中取得更优结果。

全面开源:包括代码、参数配置、训练数据和模型权重,进一步推动推理强化学习领域的开放创新。

线性注意力机制的技术突破

Minimax作为全球首个商用 线性注意力机制 的公司,在会议中分享了其技术应用的最新成果。其核心技术在于通过优化Transformer架构,解决了传统Attention机制在长序列建模中的 计算复杂度瓶颈。这一突破使得模型在处理复杂任务时的效率显著提升,尤其是在以下方面表现突出:

长序列任务:当前大模型技术已从短序列迁移到长序列任务应用场景,例如复杂文档理解、超长对话生成等。Minimax的线性Attention机制可以高效处理 400万Token 的长文本输入,是GPT-4的20-30倍。

多模态融合:线性Attention机制增强了不同模态(如文本、图像、视频等)之间的信息交互能力。这种优化使得多模态模型在统一感知与决策上更进一步。

此外,RWKV-7架构也在大会上受到高度关注。RWKV元始智能的创始人表示:

“RWKV-7引入高效高性能的训推一体设计,超越了attention/linear attention范式。”

RWKV-7以其高效高性能的设计获得了与会开发者的高度认可。许多开发者纷纷表示,未来将在更多实际场景中从传统Transformer架构切换到RWKV-7。RWKV团队还在会议期间展示了RWKV-7的实际应用成果和demo演示,进一步证明了其在推理效率、资源占用率和商业化潜力方面的价值。

3C团队视角

算法创新是核心驱动力,我们持续重点关注长序列建模、多模态融合和稀疏化技术的底层突破。算法的效率优化需求将反向推动算力基础设施升级,算力优化与算法适配的上下游协同机会一直是我们投资的主要主题之一,后续也会继续加注。

2. 算力:云服务与国产芯片的双重发力;云算力:高效与灵活的全面升级

随着AI技术的发展,云算力的需求大幅提升,GDC大会重点讨论了云算力基础设施的优化和创新:

UCloud指出,AI技术对算力设施的要求正不断提高,高性能GPU服务器(如H800/A800)成为主流需求。UCloud的乌兰察布数据中心凭借低电力成本优势,成为高功耗计算需求的理想部署基地。云算力的灵活性进一步增强,支持高显存和多GPU需求(如两台H20或A800支持),并通过灵活的API调用方式优化开发者体验。

阿里云展示了其通过DeepSeek 和Qwen distill model 帮助开发者快速完成大模型微调和应用发布的能力。开发者社区闭环:结合算力资源与社区生态,阿里云为开发者提供了更高效的算力支持,推动了AI工具在不同场景下的普及。智能化应用的落地:通过AI技术的普及,开发者能够快速构建联网搜索大模型等智能化应用。

3. 芯片:国产化与异构算力的突破

在算力需求不断攀升的背景下,国产芯片和异构算力成为重要的技术方向。

商汤科技通过多年实践,成功实现了对NVIDIA GPU和国产芯片(如壁仞、天数、摩尔、沐曦)的全面适配,并通过 异构芯片混训,构建了高效的算力调度体系。商汤通过分层通信和任务动态分配技术,实现了异构芯片的高效协同。在混训场景中,商汤提出的算力调度接口和性能优化工具,有效解决了通信瓶颈和任务分配难题。另外商汤发布的OpenPPL推理引擎,针对国产芯片的优化显著提升了算力效率。在推理任务中,Attention加速性能提升3倍,显存占用减少10%,进一步增强了国产芯片的竞争力。在大语言模型(如InternLM2 102B)的训练和推理任务中,商汤优化后的国产芯片性能已接近国际主流硬件。

3C团队视角

投资应聚焦算力基础设施的核心升级,包括异构算力适配、绿色数据中心和云算力服务。另外算力平台的开放性将为大模型开发者和中小企业带来更多创新机会,我们会继续关注具有强开发者生态的相应标的。

4. 具身智能:虚拟与现实的深度融合

具身智能领域是本次大会的一大亮点,在具身智能Hackathon上多个团队和平台展示了以下关键进展:

NVIDIA的Isaac Sim平台通过虚拟仿真技术,为机器人和具身AI提供了从数据采集到训练的一站式解决方案。多个开发团队使用Isaac Sim完成机器人智能体的训练和开发,同时,开源硬件公司Seeed通过开放式硬件平台与开发工具,为开发者提供了更容易上手的具身AI开发环境。这种开放生态推动了更多具身AI创新项目的诞生。

5. 具身智能的未来方向

未来,具身智能将在以下方面实现突破:

虚拟与现实的无缝连接:虚拟环境中的学习成果可直接迁移至物理机器人中,形成闭环体系。

多模态交互:从单一任务扩展到支持语音、图像、动作等多模态交互的复杂任务。

产业落地:随着硬件成本的降低与工具链的完善,具身智能将在工业、医疗、教育等领域实现更广泛的应用。

3C团队视角

全球人形机器人市场展现出强劲的长期增长潜力。根据预测,美国市场的营收预计将突破1万亿美元,而中国的人形机器人市场规模预计将达到6万亿元人民币。2024年见证了人形机器人领域的诸多技术进步,2025年企业正在致力于进一步推动这一技术的发展。具身智能是我们3C团队一直看好的投资方向,我们将会持续重点关注和投入该领域。

通过本次GDC 2025大会,我们看到了AI技术在算法和算力领域的全面革新。作为支持AI技术发展的重要力量,我们将持续关注技术突破与产业化落地,为投资者挖掘更多价值机会。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

//

为什么中国只有一个 DeepSeek?

万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025

Andrej Karpathy 最新视频盛赞 DeepSeek:R1 正在发现人类思考的逻辑并进行复现

来源:AI科技评论

相关推荐