摘要:我看了一下,腾讯对开源DeepSeek的DeepEP通信框架进行了深度优化,显著提升了该框架在多种网络环境下的性能表现,解决了此前在低成本RoCE网络中的瓶颈问题,并推动其更广泛的应用。
大家可能还记得5月7日那天的事情,DeepSeek公开致谢腾讯技术团队。
我看了一下,腾讯对开源DeepSeek的DeepEP通信框架进行了深度优化,显著提升了该框架在多种网络环境下的性能表现,解决了此前在低成本RoCE网络中的瓶颈问题,并推动其更广泛的应用。
按道理,这样的优化本来就是DeepSeek自己的事情,反而让腾讯技术团队抢了先,这是为什么呢?
可能,不少人和我一样百思不得解中。
腾讯技术团队还是真给力的,在RoCE网络环境中,优化后的DeepEP通信框架性能提升了100%,而在InfiniBand(IB)网络环境中,性能也提升了30%。这一优化大幅降低了AI大模型训练的通信成本,为企业提供了更高效的解决方案。
从而,腾讯技术团队为DeepSeek解决了原有技术痛点。
这里需要明确一下DeepEP框架,最初是在MoE架构大模型中通过突破性方法实现了300%的通信效率提升,减少对英伟达NCCL的依赖,但是这在成本更低的RoCE网络中表现不佳,带宽利用率低且存在CPU控制面延迟问题,限制了实际应用。
腾讯星脉网络团队针对两大关键瓶颈展开攻关,也是令人刮目相看。
一是,针对双端口网卡带宽利用率不足,通过拓扑感知的多QP建链技术的智能分配数据流,实现最大化利用带宽。
二是,针对CPU控制面交互延迟的挑战,采用基于IBGDA技术的优化,绕过CPU中转,降低延迟和能耗。
可见,两个方面的技术攻关都基本很到位了。
就此,腾讯还提出了QP内时序锁机制,解决GPU数据传输顺序混乱问题,即使同时处理上千任务也能保证顺序精准。
值得一提的是,近水楼台先得月。优化后的代码已全面开源,并成功应用于腾讯混元大模型的训练与推理,验证了其在高性能计算环境,如腾讯星脉网络与H20服务器中的通用性。
在公开致谢中,DeepSeek称腾讯这次优化是“huge speedup”,标志着开源社区协作的重要成果,也为AI大模型的分布式训练提供了更优选择。
再次为腾讯技术团队点赞👍。
因此,通过解决DeepEP在RoCE网络中的性能瓶颈并显著提升效率,推动了该框架的广泛应用,这是DeepSeek致谢的核心原因。
由此可见,开源大模型的技术创新迭代不仅要靠DeepSeek这样的创新公司,也需要腾讯等技术生态伙伴的共同努力。
众人拾柴火焰高,AI创新助力靠大家。期待开源大模型迎来更大的技术突破。
阿明书法:众人拾柴火焰高
- END-
你怎么看?
欢迎文末评论补充!
【科技明说|全球存储观察 |全球云观察|阿明观察】专注科技公司分析,用数据说话,带你看懂科技。本文和作者回复仅代表个人观点,不构成任何投资建议。
来源:阿明观察