DeepSeek 开源周,一杀:极限压榨硬件性能

B站影视 2025-02-24 20:32 1

摘要:上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper GPU 的高效型 MLA 解码核:FlashMLA。

上周,DeepSeek预告了要连续5天,开源一系列核心技术

上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper GPU 的高效型 MLA 解码核:FlashMLA。

这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,特别针对变长序列进行了优化,目前已正式投产使用。

经实测,FlashMLA在H800 SXM5平台上(CUDA 12.6),在内存受限配置下可达最高3000GB/s,在计算受限配置下可达峰值580 TFLOPS。

项目地址:

项目的核心功能是:

“FlashMLA is an efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences serving.”

翻译一下就是:

“FlashMLA 是一款针对英伟达 Hopper 架构 GPU 优化的高效 MLA 解码核心,专门为处理变长序列的服务场景进行了优化。"

一句话概括:

FlashMLA 是深度求索专为 Hopper 架构 GPU(如H800)设计的高效解码内核,通过优化可变长序列的多头潜在注意力计算,在解码阶段实现 3000GB/s 内存带宽和 580TFLOPS 算力的极限性能,显著提升大模型长上下文推理效率。

有网友表示:

目前已经有人用上了,并表示 Pure engineering:

这个项目属于工程优化,极限压榨硬件性能。

项目开箱即用:

环境要求:

• Hopper GPU

• CUDA 12.3 及以上版本

• PyTorch 2.0 及以上版本

在项目的最后,官方还表示,这是受到了 FlashAttention 2&3 和英伟达 CUTLASS 项目的启发。

该项目发布后也是好评如潮。

甚至有网友打趣地表示:「听说第五天会是 AGI」。

最后,还是那句话:这才是真正的 OpenAI

来源:吉米游戏

相关推荐