摘要:在华为全联接大会2025期间,华为昇腾计算业务总裁张迪煊发表了“以开发者为中心,加速自主创新,共赢昇腾生态”的主题演讲,并宣布CANN技术指导委员会正式成立。
[中国,上海,2025年9月20日] 在华为全联接大会2025期间,华为昇腾计算业务总裁张迪煊发表了“以开发者为中心,加速自主创新,共赢昇腾生态”的主题演讲,并宣布CANN技术指导委员会正式成立。
以下是演讲全文
尊敬的各位来宾,开发者朋友们,大家上午好!
我们看到,人工智能的高速发展重塑了计算的技术与生态,推动硬件架构、算法模型、应用开发的全面创新。前天,我们的轮值董事长徐直军先生,发布了一系列昇腾芯片,超节点,开放的灵衢协议,发布了一个全新的AI基础设施范式,这是六年来我们首次公开亮剑,亮出了我们面向未来、持续投入的决心。接下来,我很高兴与大家分享昇腾的最新进展与思考。
自2018年我们明确了昇腾AI战略,并发布了第一代Atlas产品,我们坚持硬件开放、软件开源、使能伙伴、发展人才的战略,踏实推进AI产业发展。这几年,我们在服务客户、发展生态的过程中,产学研界对昇腾提出了很多建议,我们也在积极的响应、解决和改变,谢谢大家的宝贵建议!
也正是大家的一路同行,昇腾生态取得一定成果。目前,已有80多家硬件伙伴打造了200多款产品;昇腾主导开源的60多个项目,累计有6500多名核心贡献开发者。昇腾也在50多个开源社区和开源项目中积极贡献,累计贡献37万行代码。
共筑开源开放、完备易用的AI基础软硬件
随着更多开发者基于昇腾创新,大家对昇腾的开放性、易用性和兼容性提出了更高期望。为此,我们持续围绕开发者诉求进行架构升级,并分层解耦、全面开源开放,便于大家自主创新。
首先,我们坚持硬件开放,不仅开放昇腾模组和标卡,也开放了灵衢互联能力,并提供详细设计文档,支持有能力的伙伴打造更具竞争力的超节点产品。
其次,我们坚持基础软件开源开放,把开发环境从公司内部搬到开源社区,与业界共创。从CANN到昇思AI框架再到Mind系列应用使能套件,提供全流程开发的参考实践。我们只有一个目的,就是让开发者用好昇腾,加速创新。
为了匹配开发者习惯,我们会支持好主流社区和开源项目,如Triton、PyTorch、vLLM、verl等,并会把最新的功能和特性开源到社区,让开发者可以第一时间获取。
CANN全栈开源开放、分层解耦,满足各层级灵活开发需求
开发者普遍希望能够更加灵活的调用CANN的各层级能力,自主的性能调优、问题定位以及算法创新。为此,我们通过分层解耦,支持大家从模型、算子、内核以及底层资源按需调用。
通过图模式开发,可实现整图编译与下发,降低调度开销;也可直接调用ATB等领域算子,完成模型的性能优化;我们也支持C、C++、Python和模板库等多种编程方式,满足开发者的各种习惯;同时,我们开源了底层Runtime能力,开发者可以细粒度使用硬件资源,充分挖掘硬件性能,满足发烧友的极致创新需求。
CANN构建完备编程体系,持续提升算子开发易用性
为更好地匹配开发需求,CANN构建了完备的编程体系。首先,我们提供Ascend C编程语言和CATLASS模板库,大家能够自定义开发,平衡性能与效率。同时,我们通过开放AscendNPU IR,支持Triton、TileLang、FlagTree等Python前端的开源编程框架,让大家快速验证创新的想法。
我们将在下一代产品中,同时支持SIMD+SIMT的编程方式,满足不同场景的开发需求。面向Transformer类模型的算子,SIMD新增支持的Cube和Vector融合编程,无需写数据搬运指令,实现融合算子开发效率提升30%。针对逻辑类和离散访存类场景,比如搜索推荐的算子,SIMT编程可通过数据的独立运算,大幅提升开发效率,在哈希操作、稀疏访存类算子实测性能可提升2.5倍以上。
开源共建昇腾亲和加速库,支撑开发者即取即用
在加速库能力上,我们充分解耦、并全量开源。AI Infra伙伴和开发者基于CANN所开发的高性能算子也已合入到开源社区、共享开源成果。比如,无问芯穹基于CATLASS模板库开发的Group GEMM算子,相比aclNN算子,性能再提升50%。
9月底,我们还将开源共享内存能力Share Memory,在超节点范围内的所有片上内存可实现资源池化共享,并通过Load and Store方式通信,较传统通信时延大幅降低。通过SHMEM接口开发的算子,也免去了初始化和同步等操作,代码量减少60%,大幅提升开发易用性。我们将在下一代芯片中新增CCU集合通信加速单元。过去,由计算单元执行归约计算,需要多次读写片上内存。通过卸载到CCU上,可直接执行归约计算和缓存,只需1次片上内存读写,大幅降低内存开销与计算资源占用,对应的通信算法也会随着下一代产品上市即开源。
开放HiFloat8数据格式标准,加速大模型训推,共建数据格式新生态
当前,产学研在积极探索低精度计算。我们创新了HiF8的数据格式并捐献给了GCC全球计算联盟。
HiF8在传统浮点格式中引入动态点位域,实现指数和尾数的长度灵活可变,精度和位宽更符合实际数据特征,在相同精度下,可覆盖更大的数值表达范围,接近FP16,避免数值溢出。
HiF8的技术论文已发表,并在IEEE启动标准立项、全球计算联盟(GCC)制定标准,将面向全球开放。当前,我们正联合英国的利兹大学、清华、复旦、科大讯飞等高校与企业,验证HiF8在各场景的技术和商业价值。目前HiF8精度已达标,吞吐性能会在下一代产品中实际验证。
开源全流程工具链,支撑开发者自主定位问题,提升开发效率
对于开发者而言,Profiling和Debug是开发者自行探索和闭环问题的必备工具。
过去,开发者反馈昇腾Profiling工具过于依赖个人经验。为此,我们提供了自动调优工具msProfiler,并已开源。
在进行算子开发时,工具能够根据输入的参数信息,自动搜索专家知识库,几分钟内便可输出最优Tiling策略,我们与华南理工、科大讯飞等伙伴,在不断丰富专家知识库。在推理服务化调优方面,我们与招商银行等客户共享调优经验,并将关键参数落地到msProfiler工具中,实现20倍调优效率提升。
面向应用使能,开源昇腾训推加速组件,支持业界开源社区,贡献最佳参考实践
面向AI应用使能,我们不仅提供了Mind系列软件,也支持业界开源生态。开发者既能基于昇腾快速验证和落地部署,又能获取亲和昇腾的加速能力。
从PD分离到大规模专家并行,业界对于推理吞吐和时延的探索是永无止境的。今天,我想为大家分享的是最近和阶跃星辰联创的推理加速技术,Attention和FFN分离。
内存的有效利用决定了推理的性能,我们从Transformer的模型结构出发,发现在Attention和FFN混合部署下,大量内存用于存放权重数据,尤其是FFN的权重,占比70%以上。带来的问题是,在做Attention时,就没有足够内存去部署KV-Cache,限制了输入的BatchSize大小和Sequence长度,导致整体计算利用率偏低,推理性能上不去。
我们将Attention和FFN分离部署,在Attention阶段,由于权重数据并不大,内存能放下更多的KV-Cache,所以可以输入更大的BatchSize、更长的Sequence;在FFN阶段,更大的BatchSize也可以充分发挥算力优势,提升整体MFU。
当然,Attention和FFN分离,带来了额外的激活值通信,在大EP下可以实现通信的掩盖,通过灵衢通信,可进一步发挥大带宽、低时延的互联能力。基于这种“以通信换内存”的Attention和FFN分离设计,实测Decode推理吞吐提升50%以上。
我们计划在9月30号把代码开源到vLLM社区,并持续迭代。希望能给大家带来更多的参考实践。
以开源社区为阵地,支持好昇腾开发者
开源社区是激发和承载创新的摇篮,为了让开发者快速掌握昇腾开发技能,我们围绕“内容”,依托昇腾社区提供完备的知识体系,比如大家关心的模组参考设计、aclNN算子开发指导、CATLASS开发指导等10多个场景化文档和100多专题课程。我们还提供分层赋能,比如DR辅导、线下沙龙和线上直播等,让每一位开发者都能按需获取技术指导。
我们将开源代码托管到GitCode平台,提供样例、算力、CI/CD流水线集成等端到端的开发体系,支撑大家快速开发与验证。我们今年将发布10多个开源项目、30多个社区任务,通过系列化激励,激发每一位开发者的创新潜力。CANN全面走向社区化运作,社区的治理至关重要。为了更好的推动CANN生态发展。今天,我宣布CANN技术指导委员会正式成立。
软件社区化运作,与全球开发者共创共享昇腾开源生态
我们已明确详细的开源计划,9月底,CANN全量算子将开源到Gitcode社区,12月底,领域加速库、图引擎、Ascend C、MindIE等软件代码也会陆续上仓,完成昇腾软件开源开放,全球共享,共同定义技术标准和发展方向。我们还将每年投入1500P算力和3万片开发板,与全球开发者共创、共享昇腾开源生态。
使能伙伴打造多样化硬件产品,共同构筑全场景坚实算力底座
除了软件开源,我们坚持硬件开放,基于开放的模组和标卡,使能伙伴打造满足场景的硬件产品。比如,我们的伙伴微店,基于昇腾打造了无人零售方案,帮助便民小店营业时间从原来的12小时提升到24小时。
同时,今年9月我们上市了大模型推理标卡,支撑伙伴打造了场景化的大模型应用一体机。明年,我们将新上市Atlas 350标卡、Atlas 550模组和刀片,使能伙伴基于昇腾打造竞争力的服务器及超节点,共同构筑坚实的算力底座。
使能伙伴打造场景化解决方案,加速千行万业走深向实
硬件是基础,应用是关键,我们致力于联合ISV伙伴打造场景化方案。华为提供高性能算力平台,并联合大模型伙伴和开源社区,提供亲和的开源模型和工具,使能ISV伙伴开发有竞争力的行业场景化解决方案。
我们与ISV伙伴联合定义场景、开发方案、并协同上市、共同拓展。当前我们正在联合20多个ISV,面向金融、能源、制造、教育及医疗等行业,打造了信贷报告、电子病历、电力调度、网络安全、教学助手等场景方案。我们也将一起逐步从国内走向海外,共赢全球智能化机遇。
以最新的技术培养人才,以创新的人才引领产业
人才是创新的源泉,2020年我们联合教育部打造智能基座,把昇腾课程引入高校,加强人工智能的普适教学。这几年,随着合作深入,逐步从本科普适教学走向硕博人才的拔尖培养。去年,我们联合国内头部高校,成立了鲲鹏昇腾的卓越中心和孵化中心,围绕5大方向,探索高价值的科研课题,并取得了阶段性的成果。比如,北大杨智老师团队自研的TileLang编程语言,提供Tile-level的类Python编程方式,大幅降低AI编程门槛。当前,昇腾CANN与TileLang已对接,并完成了FlashAttention算子的开发实现,性能持平官方版本,但是代码量从500+行减少到80行,下一步将支持Expert模式和Beginner模式,兼顾性能和易用性。
我们也在与法国排名第一的高校,巴黎文理大学高等矿业学院合作。基于昇思MindSpore,探索通过降维压缩等技术,在减少10倍KV-Cache的内存的同时,精度损失
开源不止于代码,开放不止于态度,开创不止于探索
开源,不止于代码共享;开放,不止于合作态度;开创,更不止于探索的脚步。过去,我们努力追赶标准,我们尽力适配生态。但今天,我们有了成体系的技术,有了全面开源的决心。我们第一次有机会,和全球的开发者站在一起,去定义一个新标准,去开创一个新范式,去引领一个新时代!别再只做“使用者”和“适配者”了。现在,我们一起上场,成为“定义者”和“开创者”!不断向上,奔跑在智能时代,谢谢大家!
来源:新浪财经