北大张铭教授团队与DeepSeek梁文锋团队合作,在长上下文大语言模型高效建模领域取得突破性进展。摘要:在国家自然科学基金项目资助下,北京大学计算机学院张铭教授团队与DeepSeek梁文锋团队合作,在长上下文大语言模型高效建模领域取得突破性进展,相关成果以“Native Sparse Attention: Hardware-Aligned and Nativel
据国家自然科学基金委消息,在国家自然科学基金项目资助下,北京大学计算机学院张铭教授团队与DeepSeek梁文锋团队合作,在长上下文大语言模型高效建模领域取得突破性进展,相关成果以“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”为题在自然语言处理领域顶级会议Association for Computational Linguistics(ACL)2025中发表,并被评为最佳论文(Best Paper Award)。张铭教授和梁文锋先生为论文的共同通讯作者。
长上下文建模是下一代大型语言模型(LLM)的关键能力,但标准注意力机制的高计算开销是重大挑战。稀疏注意力虽然具有较强的发展前景,但现有方法常面临理论优势难转化为实际加速、以及缺乏端到端训练支持等问题,严重制约了长文本AI应用的发展。针对这一问题,研究团队创新性提出了一种全新的注意力机制——原生可训练稀疏注意力(Native Sparse Attention,NSA)。NSA的核心创新体现在两个方面:首先是硬件对齐的算法与实现,通过算术强度均衡设计和专用算子,显著提升运行速度,将稀疏注意力理论优势转化为实际加速;其次是原生可训练性,实现端到端训练模式,解决了稀疏注意力训练难题,在保持性能的同时大幅降低预训练计算开销。
图 原生可训练稀疏注意力机制(NSA)
实验结果表明,基于NSA预训练的模型在通用基准、长上下文及指令推理任务上,均能保持甚至超越传统注意力模型表现。在64k序列长度下,NSA在解码、前向传播与反向传播阶段均实现显著加速。与Flash Attention对比,NSA在前向传播速度提升可达9倍,反向传播实现6倍加速,呈现“越长越优”趋势。
该研究不仅解决了稀疏注意力机制的实际应用挑战,更为推动高效大型语言模型发展提供了新方向。该论文自今年2月公开以来已被谷歌学术引用近百次,研究成果已被DeepSeek、华为、字节跳动等多家领先的大模型企业实现或复现,充分验证了其技术的先进性和实用性。
北大张铭教授主要研究领域在文本挖掘、知识图谱、图神经网络、机器学习等方面,长期深耕数据科学领域,在信息检索与推荐方面有突出贡献,是我国数据及计算科学领域的知名学者。发表或合作发表学术论文超300多篇,出版多本在数据及计算领域有影响力的专著,其主讲的“数据结构与算法”,入选国家级和北京市级精品课程、国家级精品资源共享课程。她还担任教育部计算机课程教指委委员,ACM教育专委会唯一中国理事。连续入选“全球2000位最具影响力AI学者”。
DeepSeek梁文锋毕业于浙江大学,获得信息与电子工程学系学士和硕士学位,其作为通讯作者,与DeepSeek团队共同完成的关于DeepSeek-R1推理模型的研究论文,成功登上国际权威期刊《自然(Nature)》封面。
主要来源:国家自然科学基金委员会 北京大学计算机学院
编辑:晓燕
指导:辛文
来源:通信产业报