DeepSeek 绕过 CUDA?业内人士称或为适配国产 GPU 做准备

B站影视 2025-02-02 01:16 2

摘要:尽管春节假期已经过半,“来自东方的神秘力量”DeepSeek却仍在全球范围内掀起热议狂潮。各路业内人士纷纷从不同视角深入剖析DeepSeek的模型与技术文章,试图揭开其背后的技术奥秘。而韩国Mirae Asset Securities Research分析师在

尽管春节假期已经过半,“来自东方的神秘力量”DeepSeek却仍在全球范围内掀起热议狂潮。各路业内人士纷纷从不同视角深入剖析DeepSeek的模型与技术文章,试图揭开其背后的技术奥秘。而韩国Mirae Asset Securities Research分析师在X平台发表的长文,更是将DeepSeek绕过CUDA这一话题推至风口浪尖。

这位韩国分析师在长文中明确指出:“DeepSeek 的这一突破是通过实施大量细粒度优化和使用英伟达的汇编式 PTX 编程,而非通过英伟达 CUDA 中的某些功能来实现的。” 这一言论瞬间点燃了科技圈的讨论热情,意味着 DeepSeek 在研发大模型的征程中,成功绕过了在深度学习领域占据重要地位的 CUDA。

CUDA,即 Compute Unified Device Architecture(统一计算架构),由英伟达开发,是一种允许开发者利用英伟达图形处理器(GPU)进行通用计算的通用编程框架。自诞生以来,CUDA 凭借其强大的功能和广泛的应用支持,成为众多大模型开发商基于英伟达 GPU 进行研发的首选平台。在 CUDA 的助力下,开发者能够更便捷地开展深度学习任务,大大降低了开发门槛。

对于程序开发人员而言,CUDA 就如同一种高级语言,极大地简化了开发流程。开发者只需将主要精力聚焦于程序和算法的核心运行逻辑,无需过多操心程序在 GPU 等硬件上的具体执行细节,从而显著降低了开发难度。以汇编语言为例,汇编语言虽能高效操作计算机,但对于非专业出身的人员来说,其难度极高,仅仅一个简单的变量赋值操作,就需要编写好几条命令,并且开发者还必须深入了解寄存器、内存等计算机基础概念。相比之下,使用高级语言进行编程,实现相同操作只需简单的变量赋值即可。CUDA 正是为了方便基于 GPU 的算法开发而设计的。

大模型开发商在运用英伟达 GPU 时,通常基于 CUDA 展开研发。这是因为 CUDA 中已封装了许多常用函数,开发者使用时只需直接调用接口,无需关注过多底层细节,这大大降低了对开发者的技术要求。然而,这种便利性并非毫无代价,使用 CUDA 在一定程度上会损失执行效率。CUDA 的通用性固然为开发者提供了便利,但其在设计时更多考虑的是通用性,即追求平均条件下的最优性能,这就导致其在灵活性方面存在一定欠缺。例如,CUDA 中设计的矩阵乘法算子、数据加载传输算子等,虽然是深度学习开发者常用的算子,但在面对一些有特定需求的 GPU 开发者时,却难以满足他们对于更精细控制的要求。

在大模型多机多卡训练的场景中,开发者往往需要更精细地控制某个节点上的 GPU 具体用途,以及如何精确地在不同 GPU 之间传输数据、权重和梯度等。而 CUDA 目前尚未针对这些特定需求设计出高效的解决方案。当仅使用单个 GPU 时,CUDA 的通用性优势能够得到充分发挥,非常适用;但当在不同节点使用多个 GPU 时,CUDA 在细粒度控制方面的不足就会凸显,导致在抽象层面的效率较低。

既然 CUDA 存在灵活性不足的问题,那么绕过 CUDA 是否可行?答案是肯定的,但这并非易事。绕过 CUDA 意味着开发者需要直接与硬件底层打交道,这对开发者的技术能力提出了极高的要求。他们既要精通 AI 模型的算法,又要熟悉计算机系统架构,以便能够高效地分配硬件资源。

DeepSeek 在多节点通信时绕过 CUDA 直接使用 PTX(Parallel Thread Execution),为高效利用硬件层面的加速提供了一种新的思路。如果开发者能够熟练运用 PTX 语言,相比使用 CUDA 提供的编程接口,的确可以更精细地控制 GPU 之间的数据传输、权重和梯度等。然而,使用 PTX 编写代码的难度极大,代码复杂且难以维护,这就要求 DeepSeek 拥有一支具备深厚技术功底的专业开发团队。

从 DeepSeek 的技术报告来看,其主体实现仍然基于 CUDA 的相关接口,但在通信部分成功绕开了 CUDA。这一举措表明,DeepSeek 不仅成功组建了一支掌握多领域专业知识的精英团队,还具备出色的团队协作能力,能够将不同技能的人才紧密结合,攻克技术难题。

DeepSeek 绕过 CUDA 的做法,对其自身的模型训练产生了显著影响。一旦模型训练速度加快,就意味着在相同时间内,DeepSeek 的模型能够处理更多的数据。例如,当其他模型需要训练十天时,DeepSeek 的模型可能仅需五天,这使得它能够为模型输入更多的数据,进而间接提升模型的效果。

从行业发展的角度来看,DeepSeek 的这一突破也为整个行业带来了新的启示。绕过 CUDA 并非 DeepSeek 的首创,目前已经存在一些与 CUDA 对标的开源编程框架,如 Triton。此前,北京智源研究院的相关研究人员也曾基于 Triton 去加速英伟达以及国产的 GPU,这同样可以视为一种绕过 CUDA 调用 GPU 驱动提供的相关函数的做法。DeepSeek 的成功实践,无疑将鼓励更多的企业和研究机构在 GPU 编程领域进行创新探索,推动行业技术的不断进步。

随着 DeepSeek 绕过 CUDA 这一技术突破的曝光,人们不禁开始展望其未来的发展方向。由于 DeepSeek 拥有擅长写 PTX 语言的内部开发者,倘若未来其使用国产 GPU,在硬件适配方面将更具优势。它只需了解国产硬件驱动提供的基本函数接口,就能够仿照英伟达 GPU 硬件的编程接口编写相关代码,从而使自家大模型更加容易适配国产硬件。这不仅有助于推动国产 GPU 在人工智能领域的应用,还将为国产 GPU 的生态建设提供有力支持。

此外,考虑到 AMD 已经宣布集成 DeepSeek-V3 到 MI300X GPU,未来很有可能会有更多的 GPU 厂商与 DeepSeek 展开合作。这一系列合作不仅将进一步提升 DeepSeek 的市场影响力,还可能引发行业内的技术变革,促使更多企业加大在 GPU 适配和人工智能技术研发方面的投入,从而重塑全球人工智能技术格局。

正如韩国分析师在 X 文章中所说:“这凸显了 DeepSeek 非凡的工程水平,并表明美国对华制裁加剧的‘GPU 短缺危机’激发了他们的紧迫感和创造力。”DeepSeek 绕过 CUDA 的技术突破,不仅是其自身发展的重要里程碑,更是全球人工智能技术发展史上的一个重要节点。它为国产 GPU 的发展带来了新的机遇,也为行业的多元化发展注入了新的活力。在未来,我们有理由期待 DeepSeek 以及更多的技术创新者,能够在人工智能领域创造更多的辉煌,为人类社会的发展做出更大的贡献。

来源:人工智能学家

相关推荐