以开发者为中心，加速自主创新，共赢昇腾生态

摘要：在华为全联接大会2025期间，华为昇腾计算业务总裁张迪煊发表了“以开发者为中心，加速自主创新，共赢昇腾生态”的主题演讲，并宣布CANN技术指导委员会正式成立。

[中国，上海，2025年9月20日] 在华为全联接大会2025期间，华为昇腾计算业务总裁张迪煊发表了“以开发者为中心，加速自主创新，共赢昇腾生态”的主题演讲，并宣布CANN技术指导委员会正式成立。

以下是演讲全文

尊敬的各位来宾，开发者朋友们，大家上午好！

我们看到，人工智能的高速发展重塑了计算的技术与生态，推动硬件架构、算法模型、应用开发的全面创新。前天，我们的轮值董事长徐直军先生，发布了一系列昇腾芯片，超节点，开放的灵衢协议，发布了一个全新的AI基础设施范式，这是六年来我们首次公开亮剑，亮出了我们面向未来、持续投入的决心。接下来，我很高兴与大家分享昇腾的最新进展与思考。

自2018年我们明确了昇腾AI战略，并发布了第一代Atlas产品，我们坚持硬件开放、软件开源、使能伙伴、发展人才的战略，踏实推进AI产业发展。这几年，我们在服务客户、发展生态的过程中，产学研界对昇腾提出了很多建议，我们也在积极的响应、解决和改变，谢谢大家的宝贵建议！

也正是大家的一路同行，昇腾生态取得一定成果。目前，已有80多家硬件伙伴打造了200多款产品；昇腾主导开源的60多个项目，累计有6500多名核心贡献开发者。昇腾也在50多个开源社区和开源项目中积极贡献，累计贡献37万行代码。

共筑开源开放、完备易用的AI基础软硬件

随着更多开发者基于昇腾创新，大家对昇腾的开放性、易用性和兼容性提出了更高期望。为此，我们持续围绕开发者诉求进行架构升级，并分层解耦、全面开源开放，便于大家自主创新。

首先，我们坚持硬件开放，不仅开放昇腾模组和标卡，也开放了灵衢互联能力，并提供详细设计文档，支持有能力的伙伴打造更具竞争力的超节点产品。

其次，我们坚持基础软件开源开放，把开发环境从公司内部搬到开源社区，与业界共创。从CANN到昇思AI框架再到Mind系列应用使能套件，提供全流程开发的参考实践。我们只有一个目的，就是让开发者用好昇腾，加速创新。

为了匹配开发者习惯，我们会支持好主流社区和开源项目，如Triton、PyTorch、vLLM、verl等，并会把最新的功能和特性开源到社区，让开发者可以第一时间获取。

CANN全栈开源开放、分层解耦，满足各层级灵活开发需求

开发者普遍希望能够更加灵活的调用CANN的各层级能力，自主的性能调优、问题定位以及算法创新。为此，我们通过分层解耦，支持大家从模型、算子、内核以及底层资源按需调用。

通过图模式开发，可实现整图编译与下发，降低调度开销；也可直接调用ATB等领域算子，完成模型的性能优化；我们也支持C、C++、Python和模板库等多种编程方式，满足开发者的各种习惯；同时，我们开源了底层Runtime能力，开发者可以细粒度使用硬件资源，充分挖掘硬件性能，满足发烧友的极致创新需求。

CANN构建完备编程体系，持续提升算子开发易用性

为更好地匹配开发需求，CANN构建了完备的编程体系。首先，我们提供Ascend C编程语言和CATLASS模板库，大家能够自定义开发，平衡性能与效率。同时，我们通过开放AscendNPU IR，支持Triton、TileLang、FlagTree等Python前端的开源编程框架，让大家快速验证创新的想法。

我们将在下一代产品中，同时支持SIMD+SIMT的编程方式，满足不同场景的开发需求。面向Transformer类模型的算子，SIMD新增支持的Cube和Vector融合编程，无需写数据搬运指令，实现融合算子开发效率提升30%。针对逻辑类和离散访存类场景，比如搜索推荐的算子，SIMT编程可通过数据的独立运算，大幅提升开发效率，在哈希操作、稀疏访存类算子实测性能可提升2.5倍以上。

开源共建昇腾亲和加速库，支撑开发者即取即用

在加速库能力上，我们充分解耦、并全量开源。AI Infra伙伴和开发者基于CANN所开发的高性能算子也已合入到开源社区、共享开源成果。比如，无问芯穹基于CATLASS模板库开发的Group GEMM算子，相比aclNN算子，性能再提升50%。

9月底，我们还将开源共享内存能力Share Memory，在超节点范围内的所有片上内存可实现资源池化共享，并通过Load and Store方式通信，较传统通信时延大幅降低。通过SHMEM接口开发的算子，也免去了初始化和同步等操作，代码量减少60%，大幅提升开发易用性。我们将在下一代芯片中新增CCU集合通信加速单元。过去，由计算单元执行归约计算，需要多次读写片上内存。通过卸载到CCU上，可直接执行归约计算和缓存，只需1次片上内存读写，大幅降低内存开销与计算资源占用，对应的通信算法也会随着下一代产品上市即开源。

开放HiFloat8数据格式标准，加速大模型训推，共建数据格式新生态

当前，产学研在积极探索低精度计算。我们创新了HiF8的数据格式并捐献给了GCC全球计算联盟。

HiF8在传统浮点格式中引入动态点位域，实现指数和尾数的长度灵活可变，精度和位宽更符合实际数据特征，在相同精度下，可覆盖更大的数值表达范围，接近FP16，避免数值溢出。

HiF8的技术论文已发表，并在IEEE启动标准立项、全球计算联盟（GCC）制定标准，将面向全球开放。当前，我们正联合英国的利兹大学、清华、复旦、科大讯飞等高校与企业，验证HiF8在各场景的技术和商业价值。目前HiF8精度已达标，吞吐性能会在下一代产品中实际验证。

开源全流程工具链，支撑开发者自主定位问题，提升开发效率

对于开发者而言，Profiling和Debug是开发者自行探索和闭环问题的必备工具。

过去，开发者反馈昇腾Profiling工具过于依赖个人经验。为此，我们提供了自动调优工具msProfiler，并已开源。

在进行算子开发时，工具能够根据输入的参数信息，自动搜索专家知识库，几分钟内便可输出最优Tiling策略，我们与华南理工、科大讯飞等伙伴，在不断丰富专家知识库。在推理服务化调优方面，我们与招商银行等客户共享调优经验，并将关键参数落地到msProfiler工具中，实现20倍调优效率提升。

面向应用使能，开源昇腾训推加速组件，支持业界开源社区，贡献最佳参考实践

面向AI应用使能，我们不仅提供了Mind系列软件，也支持业界开源生态。开发者既能基于昇腾快速验证和落地部署，又能获取亲和昇腾的加速能力。

从PD分离到大规模专家并行，业界对于推理吞吐和时延的探索是永无止境的。今天，我想为大家分享的是最近和阶跃星辰联创的推理加速技术，Attention和FFN分离。

内存的有效利用决定了推理的性能，我们从Transformer的模型结构出发，发现在Attention和FFN混合部署下，大量内存用于存放权重数据，尤其是FFN的权重，占比70%以上。带来的问题是，在做Attention时，就没有足够内存去部署KV-Cache，限制了输入的BatchSize大小和Sequence长度，导致整体计算利用率偏低，推理性能上不去。

我们将Attention和FFN分离部署，在Attention阶段，由于权重数据并不大，内存能放下更多的KV-Cache，所以可以输入更大的BatchSize、更长的Sequence；在FFN阶段，更大的BatchSize也可以充分发挥算力优势，提升整体MFU。

当然，Attention和FFN分离，带来了额外的激活值通信，在大EP下可以实现通信的掩盖，通过灵衢通信，可进一步发挥大带宽、低时延的互联能力。基于这种“以通信换内存”的Attention和FFN分离设计，实测Decode推理吞吐提升50%以上。

我们计划在9月30号把代码开源到vLLM社区，并持续迭代。希望能给大家带来更多的参考实践。

以开源社区为阵地，支持好昇腾开发者

开源社区是激发和承载创新的摇篮，为了让开发者快速掌握昇腾开发技能，我们围绕“内容”，依托昇腾社区提供完备的知识体系，比如大家关心的模组参考设计、aclNN算子开发指导、CATLASS开发指导等10多个场景化文档和100多专题课程。我们还提供分层赋能，比如DR辅导、线下沙龙和线上直播等，让每一位开发者都能按需获取技术指导。

我们将开源代码托管到GitCode平台，提供样例、算力、CI/CD流水线集成等端到端的开发体系，支撑大家快速开发与验证。我们今年将发布10多个开源项目、30多个社区任务，通过系列化激励，激发每一位开发者的创新潜力。CANN全面走向社区化运作，社区的治理至关重要。为了更好的推动CANN生态发展。今天，我宣布CANN技术指导委员会正式成立。

软件社区化运作，与全球开发者共创共享昇腾开源生态

我们已明确详细的开源计划，9月底，CANN全量算子将开源到Gitcode社区，12月底，领域加速库、图引擎、Ascend C、MindIE等软件代码也会陆续上仓，完成昇腾软件开源开放，全球共享，共同定义技术标准和发展方向。我们还将每年投入1500P算力和3万片开发板，与全球开发者共创、共享昇腾开源生态。

使能伙伴打造多样化硬件产品，共同构筑全场景坚实算力底座

除了软件开源，我们坚持硬件开放，基于开放的模组和标卡，使能伙伴打造满足场景的硬件产品。比如，我们的伙伴微店，基于昇腾打造了无人零售方案，帮助便民小店营业时间从原来的12小时提升到24小时。

同时，今年9月我们上市了大模型推理标卡，支撑伙伴打造了场景化的大模型应用一体机。明年，我们将新上市Atlas 350标卡、Atlas 550模组和刀片，使能伙伴基于昇腾打造竞争力的服务器及超节点，共同构筑坚实的算力底座。

使能伙伴打造场景化解决方案，加速千行万业走深向实

硬件是基础，应用是关键，我们致力于联合ISV伙伴打造场景化方案。华为提供高性能算力平台，并联合大模型伙伴和开源社区，提供亲和的开源模型和工具，使能ISV伙伴开发有竞争力的行业场景化解决方案。

我们与ISV伙伴联合定义场景、开发方案、并协同上市、共同拓展。当前我们正在联合20多个ISV，面向金融、能源、制造、教育及医疗等行业，打造了信贷报告、电子病历、电力调度、网络安全、教学助手等场景方案。我们也将一起逐步从国内走向海外，共赢全球智能化机遇。

以最新的技术培养人才，以创新的人才引领产业

人才是创新的源泉，2020年我们联合教育部打造智能基座，把昇腾课程引入高校，加强人工智能的普适教学。这几年，随着合作深入，逐步从本科普适教学走向硕博人才的拔尖培养。去年，我们联合国内头部高校，成立了鲲鹏昇腾的卓越中心和孵化中心，围绕5大方向，探索高价值的科研课题，并取得了阶段性的成果。比如，北大杨智老师团队自研的TileLang编程语言，提供Tile-level的类Python编程方式，大幅降低AI编程门槛。当前，昇腾CANN与TileLang已对接，并完成了FlashAttention算子的开发实现，性能持平官方版本，但是代码量从500+行减少到80行，下一步将支持Expert模式和Beginner模式，兼顾性能和易用性。

我们也在与法国排名第一的高校，巴黎文理大学高等矿业学院合作。基于昇思MindSpore，探索通过降维压缩等技术，在减少10倍KV-Cache的内存的同时，精度损失

开源不止于代码，开放不止于态度，开创不止于探索

开源，不止于代码共享；开放，不止于合作态度；开创，更不止于探索的脚步。过去，我们努力追赶标准，我们尽力适配生态。但今天，我们有了成体系的技术，有了全面开源的决心。我们第一次有机会，和全球的开发者站在一起，去定义一个新标准，去开创一个新范式，去引领一个新时代！别再只做“使用者”和“适配者”了。现在，我们一起上场，成为“定义者”和“开创者”！不断向上，奔跑在智能时代，谢谢大家！

来源：新浪财经

标签：创新开源生态自主共赢

本文地址：http://news.43b.com.cn/a/1251147.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!