摘要:上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper GPU 的高效型 MLA 解码核:FlashMLA。
上周,DeepSeek预告了要连续5天,开源一系列核心技术
上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper GPU 的高效型 MLA 解码核:FlashMLA。
这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,特别针对变长序列进行了优化,目前已正式投产使用。
经实测,FlashMLA在H800 SXM5平台上(CUDA 12.6),在内存受限配置下可达最高3000GB/s,在计算受限配置下可达峰值580 TFLOPS。
项目地址:
项目的核心功能是:
“FlashMLA is an efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences serving.”
翻译一下就是:
“FlashMLA 是一款针对英伟达 Hopper 架构 GPU 优化的高效 MLA 解码核心,专门为处理变长序列的服务场景进行了优化。"
一句话概括:
FlashMLA 是深度求索专为 Hopper 架构 GPU(如H800)设计的高效解码内核,通过优化可变长序列的多头潜在注意力计算,在解码阶段实现 3000GB/s 内存带宽和 580TFLOPS 算力的极限性能,显著提升大模型长上下文推理效率。
有网友表示:
目前已经有人用上了,并表示 Pure engineering:
这个项目属于工程优化,极限压榨硬件性能。
项目开箱即用:
环境要求:
• Hopper GPU
• CUDA 12.3 及以上版本
• PyTorch 2.0 及以上版本
在项目的最后,官方还表示,这是受到了 FlashAttention 2&3 和英伟达 CUTLASS 项目的启发。
该项目发布后也是好评如潮。
甚至有网友打趣地表示:「听说第五天会是 AGI」。
最后,还是那句话:这才是真正的 OpenAI
来源:吉米游戏