瞭望 | 解决算力黑洞新方案

B站影视 2025-01-20 16:54 2

摘要:超智融合并非简单的“超算+智算”的堆叠,而是从芯片到计算、存储、网络,到算力调度、系统运维,再到平台层、应用层的系统化融合,包含了数据融合、算法融合、业务融合、基础设施融合等

超智融合并非简单的“超算+智算”的堆叠,而是从芯片到计算、存储、网络,到算力调度、系统运维,再到平台层、应用层的系统化融合,包含了数据融合、算法融合、业务融合、基础设施融合等

算力中心亟需突破现有单体运营模式,从计算、网络、存储等方面互联互通,推动超智融合真正落地成为解决算力黑洞的利器

“在超智融合的终极形态——内生融合阶段,计算机系统将呈现内在的智能特性,AI不再是一种外加的能力,而成为计算机的核心属性和基本组成,可能计算的能力或者智能化的水平会远远超过今天的超算或智算。”

文 |《瞭望》新闻周刊记者 扈永顺 李文哲

超智融合正成为解决算力黑洞的新方案。

在北京举行的第六届中国超级算力大会上,“超智融合技术路线与趋势”成为热点议题。人工智能性能飞速发展,算力的作用越来越重要,大模型训练和推理需要海量计算资源,如何满足多元算力应用需求,成为我国抢占数字经济制高点的紧迫问题。

国家高性能计算机工程技术研究中心副主任曹振南等专家认为,超智融合兼具超算强大的计算处理能力和智算的算法优化能力,可以满足多样化的算力需求,有效推动数字经济持续发展,建立稳定可靠的算力体系,是事关全局的长远之策,具有重大战略意义。

中国科学院院士、超算互联网总体专家组组长钱德沛认为,超智融合正沿着超算支撑AI应用,用AI技术改进超算,超智内生融合等阶段演进。未来随着通用全精度高算力芯片等取得突破,超智融合将迎来井喷式爆发。

超智融合让计算“多、精、好、省”

“传统算力供应商往往只能提供少数几种资源,且服务形式较为单一,难以全方位精准匹配用户的多样化需求。”多位研究人员认为,满足AI时代多样化算力需求,推动超智融合是大势所趋。

超算和智算虽然都属于高性能计算范畴,但超算侧重于科学和工程计算,处理的是需要极高计算能力和大规模数据处理能力的问题;智算侧重于数据驱动的模型和算法,处理的是需要高效并行计算能力和大规模数据训练的问题。

随着人工智能技术的快速发展,超算开始借助人工智能的方法,采用神经网络替代部分数值模拟计算,采用混合计算精度,提高计算效率。曹振南进一步解释,超智融合并非简单的“超算+智算”的堆叠,而是从芯片到计算、存储、网络,到算力调度、系统运维,再到平台层、应用层的系统化融合,包含了数据融合、算法融合、业务融合、基础设施融合等。

中国工程院院士郑纬民带领团队开发了名为“八卦炉”的智算系统核心基础软件。他向记者分享了最新进展,“在神威平台上进行大规模模型训练,不仅实现了高精度的训练效果,而且与国际同类技术相比,运行成本预计仅为其六分之一”。

超算与智算组合,在蛋白质结构预测、新材料设计、天气预报、大规模分子模拟等AI for Science场景,正在让计算“多、精、好、省”。在材料科学中,通过超算进行分子动力学模拟,利用智算优化材料的性能参数,加速新材料研发。研究人员告诉记者,只用超算虽然能够进行分子动力学模拟,但无法“多、好、省”地用AI技术来加快新材料研发;只用智算,又不具备高精度计算能力,无法进行分子动力学模拟。

探索宇宙起源,进行大规模宇宙学模拟研究,需要大量算力支撑。我国某地天文台推进的宇宙学研究项目在国际同行中备受瞩目,正是依托包含超算、智算的多元算力资源实现上百次大规模宇宙学模拟——超算支持模拟宇宙中物质的分布和运动,以及磁场和流体的相互作用。利用智算,研究人员对超算模拟的结果数据进行深入分析,进一步探索宇宙中的复杂现象和规律。

郑庆哈城市算力网调度指挥中心页面 受访者供图

打造算力超市

多位研究人员认为,面对全社会对算力提出的更高要求,算力中心亟需突破现有单体运营模式,从计算、网络、存储等方面互联互通,推动超智融合真正落地成为解决算力黑洞的利器。

超智融合不仅是要在算力架构层面实现CPU+GPU融合的网络架构,还需要在算力调度、算力运营等方面形成高效分配的核心和统一的服务平台,以应对复杂的计算需求。

2024年4月正式上线的国家超算互联网平台,是借鉴互联网的理念发展算力基础设施。通过汇聚各个算力中心的异构算力资源,由一体化服务与调度平台进行分布式异构算力资源调度,可让多个超算中心、智算中心之间更加紧密地耦合,更高效快速地共同解决大型复杂计算难题。

曹振南介绍,国家超算互联网之所以能实现算力的按需调用,他们首先从平台管理者的视角入手,构建动态更新的资源感知系统,实时获取各中心各类资源的状态,并根据其状态匹配或调整调度策略,实现算力需求和算力资源的统一匹配和高效调度;此外站在用户的视角,在实现高效跨域调度、互联互通的同时,让用户使用软件、调用模型和编译代码等场景时对资源调度无感知,获得和本地使用算力一致的良好体验。

“国家超算互联网建设,既可在有需求时实现多中心协同计算,也有助于计算任务及数据在各个中心之间快速分发,更高效地利用计算资源。”钱德沛说,超算互联网已有超过280家应用、数据、模型等服务商入驻,并提供超6000款商品。这些商品覆盖科学计算、工业仿真、AI模型训练等前沿数字化创新领域,可满足全社会对先进计算服务的需求。

国家超算互联网与郑庆哈城市算力网进行了互联互通,成为了超智融合的最新探索。

郑庆哈城市算力网是由郑州市、庆阳市、哈密市共同建设的集约型、系统性、跨区域算力网络,已实现郑州超算中心、高新智算中心、联通中原数据基地、移动数据基地的算力并网,形成“通用计算+超级计算+智能计算”资源池,将超算的强大数据处理能力与AI的算法优化能力融合。

“其中,郑州高新区全域算力网一期项目在设计之初就采用分层解耦的开放技术架构,通过多角色分层规划和管理模式,供给侧完成异构异属的通算、超算、智算资源并网调度,需求侧实现统一细粒度计量计费。”郑州高新区管委会三级调研员牛道乐介绍,建成后用户可以像在超市一样按需选择购买算力。

提前谋划部署先进算力

超智融合的最终形态是内生融合。“在超智融合的终极形态——内生融合阶段,计算机系统将呈现内在的智能特性,AI不再是一种外加的能力,而成为计算机的核心属性和基本组成,可能计算的能力或者智能化的水平会远远超过今天的超算或智算。”钱德沛说。

超算、智算要真正实现“合二为一”,一些技术难题亟待突破,例如加快研制通用全精度高算力芯片等。

通用全精度高算力芯片研制能力是构建先进算力基础设施的硬核技术,是整个体系的核心。受访专家认为,英伟达等芯片巨头已布局和研制通用全精度高算力芯片,我国应提前布局谋划。

中国科学院计算技术研究所研究员张云泉认为,除了以新型GPU为代表的通用全精度高算力芯片,超智融合还需要众多新型技术与应用的创新,例如面向传统并行计算和分布式训练的编程模型、面向HPC&AI应用的智能化资源管理与作业调度工具等。

多位研究人员认为,超智融合已成为算力产业发展面临的重要课题,加快超算与智算技术融合发展,需要业界强化对未来发展趋势的深刻洞察,发挥中国算力基础设施的优势,推动形成绿色高效的算力体系。■

来源:新华社

相关推荐