DeepSeek新论文曝光,梁文锋担任通讯作者

B站影视 2025-02-25 00:34 1

摘要:这篇论文提出了一种新型硬件对齐且可端到端训练的稀疏注意力机制——NSA(Native Sparse Attention),旨在高效处理长上下文建模的计算挑战。

近日,DeepSeek发表了一篇论文,并由DeepSeek创始人梁文锋担任通讯作者。

这篇论文提出了一种新型硬件对齐且可端到端训练的稀疏注意力机制——NSA(Native Sparse Attention),旨在高效处理长上下文建模的计算挑战。

NSA通过动态分层稀疏策略,结合粗粒度令牌压缩、细粒度令牌选择和滑动窗口机制,兼顾全局语义感知与局部细节保留。

其核心创新在于:(1)硬件优化设计,通过块状内存访问与计算平衡算术强度,适配现代GPU架构;(2)端到端可训练性,支持梯度反向传播,避免传统稀疏方法因离散操作导致的性能损失。

实验表明,NSA在27B参数的Transformer模型上,经270B token预训练后,在通用基准测试(如MMLU、GSM8K)、长上下文任务(如64k长度“大海捞针”测试)及复杂推理任务(如AIME数学竞赛)中均优于全注意力基线。

同时,NSA在64k序列长度下实现了高达9倍的前向加速和11.6倍的解码加速,显著降低了训练与推理成本。总的来说,该研究为长上下文大模型的高效训练与部署提供了新的技术路径。

昨天刚刚出席民营企业座谈会,今天又被曝出担任新论文的通讯作者,总是梁文锋的2025新年伊始就像开挂了一样,期待他和DeepSeek做出更多成绩。

注:论文介绍部分由DeepSeek R1模型生成。

来源:劍膽琴心

相关推荐