校企携手：我国大语言模型高效建模研究取得突破性进展

摘要：在国家自然科学基金项目资助下，北京大学计算机学院张铭教授团队与DeepSeek梁文锋团队合作，在长上下文大语言模型高效建模领域取得突破性进展，相关成果以“Native Sparse Attention: Hardware-Aligned and Nativel

北大张铭教授团队与DeepSeek梁文锋团队合作，在长上下文大语言模型高效建模领域取得突破性进展。

据国家自然科学基金委消息，在国家自然科学基金项目资助下，北京大学计算机学院张铭教授团队与DeepSeek梁文锋团队合作，在长上下文大语言模型高效建模领域取得突破性进展，相关成果以“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”为题在自然语言处理领域顶级会议Association for Computational Linguistics(ACL)2025中发表，并被评为最佳论文(Best Paper Award)。张铭教授和梁文锋先生为论文的共同通讯作者。

长上下文建模是下一代大型语言模型(LLM)的关键能力，但标准注意力机制的高计算开销是重大挑战。稀疏注意力虽然具有较强的发展前景，但现有方法常面临理论优势难转化为实际加速、以及缺乏端到端训练支持等问题，严重制约了长文本AI应用的发展。针对这一问题，研究团队创新性提出了一种全新的注意力机制——原生可训练稀疏注意力(Native Sparse Attention，NSA)。NSA的核心创新体现在两个方面：首先是硬件对齐的算法与实现，通过算术强度均衡设计和专用算子，显著提升运行速度，将稀疏注意力理论优势转化为实际加速；其次是原生可训练性，实现端到端训练模式，解决了稀疏注意力训练难题，在保持性能的同时大幅降低预训练计算开销。

图原生可训练稀疏注意力机制(NSA)

实验结果表明，基于NSA预训练的模型在通用基准、长上下文及指令推理任务上，均能保持甚至超越传统注意力模型表现。在64k序列长度下，NSA在解码、前向传播与反向传播阶段均实现显著加速。与Flash Attention对比，NSA在前向传播速度提升可达9倍，反向传播实现6倍加速，呈现“越长越优”趋势。

该研究不仅解决了稀疏注意力机制的实际应用挑战，更为推动高效大型语言模型发展提供了新方向。该论文自今年2月公开以来已被谷歌学术引用近百次，研究成果已被DeepSeek、华为、字节跳动等多家领先的大模型企业实现或复现，充分验证了其技术的先进性和实用性。

北大张铭教授主要研究领域在文本挖掘、知识图谱、图神经网络、机器学习等方面，长期深耕数据科学领域，在信息检索与推荐方面有突出贡献，是我国数据及计算科学领域的知名学者。发表或合作发表学术论文超300多篇，出版多本在数据及计算领域有影响力的专著，其主讲的“数据结构与算法”，入选国家级和北京市级精品课程、国家级精品资源共享课程。她还担任教育部计算机课程教指委委员，ACM教育专委会唯一中国理事。连续入选“全球2000位最具影响力AI学者”。

DeepSeek梁文锋毕业于浙江大学，获得信息与电子工程学系学士和硕士学位，其作为通讯作者，与DeepSeek团队共同完成的关于DeepSeek-R1推理模型的研究论文，成功登上国际权威期刊《自然（Nature）》封面。

主要来源：国家自然科学基金委员会北京大学计算机学院

编辑：晓燕

指导：辛文

来源：通信产业报

标签：模型语言建模张铭文锋

本文地址：http://news.43b.com.cn/a/1241661.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!