摘要:8月13日-16日,第21届CCF全国高性能计算学术大会(CCF HPC China 2025)在鄂尔多斯举办,大会以“绿动算力 超智融合”为主题,共同探讨开创高性能计算高质量发展新局面的实现路径。
【环球网科技综合报道】8月13日-16日,第21届CCF全国高性能计算学术大会(CCF HPC China 2025)在鄂尔多斯举办,大会以“绿动算力 超智融合”为主题,共同探讨开创高性能计算高质量发展新局面的实现路径。
当前,高性能计算学术研究和产业拓展正经历前所未有的横向突破。本届大会主席、中国工程物理研究院莫则尧研究员在致辞中表示:“当前,高性能计算正在迈入智算融合‘深水区’。我们既面临效能等硬核挑战,也遭遇了软件薄弱、区域发展失衡等系统性问题,亟需数字化、智能化学科交叉的攻坚克难。破局之道在于全国一盘棋,将算力孤岛、学科孤岛、应用孤岛等凝聚为创新大陆,实现算力、数据、模型、软件、应用等资源的协同共享和融合普惠。我们越来越清楚地认识到,开创高性能计算高质量发展新局面,务必以协同共享为基础,以融合普惠为目标。”
智算近年来发展迅猛。算力的获取不仅要靠智算中心的芯片快速迭代,更重要的是靠技术规模的不断扩展。构建高性能的网络互联不仅关系到数据中心的建设,更是AI未来发展的关键技术之一。在此背景下,阿里云、中科院联合成立了高通量以太网联盟,致力于针对智算场景的高通量协议,推动标准化,打造开源开放的智算场景下的国内开放生态。在本次大会上,联盟发布了多项重要成果:国产芯片落地,包括400G网卡芯片和25.6G交换芯片,以构建智算中心网络;发布国产追光芯片;针对ERACK场景发布互联以太网网络;发布UPN超性能网络,旨在基于单层的以太网和光技术构建新型超全解耦超性能的网络。
在超智融合加速发展的背景下,《超智融合集群能力要求》行业标准也在大会上正式发布。该标准首次系统地构建了覆盖架构设计、功能性能、安全可信及评估方法的能力体系,重点解决跨厂商兼容性差、集群协同效率低等行业共性问题,为智能制造、智慧城市等场景提供统一的技术规范。
中国科学院计算技术研究所研究员、中国计算机学会(CCF)理事长孙凝晖指出,科学智能(AI4S)作为高性能计算与人工智能深度融合的前沿交叉领域,正深刻改变着科学研究的范式。其发展所面临的模型复杂性、算力需求和数据挑战显著区别于传统人工智能应用。AI4S的最大作用是突破人类认知的极限。AI不是万能工具,它离不开高性能计算这一重要手段。当前,信息技术赋能科学的手段如同从“增强肌肉(算力)”到“提供营养”,再到“赋予大脑”(人工智能)的进化。而信息学科的主要任务是提供工具,包括提高生产率的科研信息化工具和应用开发中间件。
超级计算是推动科学研究、技术突破、产业发展的创新引擎。随着大数据、人工智能技术的快速发展,超算技术面临着新挑战,比如能耗与复杂性的增加,但同时也迎来了新的机遇。
中山大学计算机学院教授、国家超级计算广州中心主任、国家超级计算深圳中心主任卢宇彤呼吁,打造国产新一代超算系统,关注极致性能、能效与自主可控等因素,设计实现新型体系架构和融合软件栈,打破多级异构壁垒,构建应用生态,实现多域场景的深度滲透。同时,还应基于标准与开源的协同体系,构建产学研用的可持续发展生态,有效支撑科学发现、产业革新和智能跃迁,让超算成为国家科技创新和行业数智化升级的超级引擎。
会上,中国科学院理论物理研究所研究员、中国科学院大学学术副校长吴岳良首先简要回顾和介绍从极小量子粒子到极大宇宙膨胀的重大理论突破与前沿研究。随后重点阐述量子宇宙物理面临的两大关键挑战:其一,现有物理理论在定量预言与数值求解方面存在着理论计算瓶颈。无论是由广义相对论所描述的引力相互作用,还是由量子色动力学刻画的强相互作用,均涉及高度复杂的非线性和非微扰特性,由此发展的数值相对论与格点规范理论对高性能计算和超算体系提出了前所未有的需求;其二,现有理论框架本身存在着根本性概念冲突,尤以广义相对论与量子力学/量子场论的自洽结合最为突出。随着引力波的发现与量子物理研究的深入,近年来引力量子场论与超统一场论等新理论框架的发展,对时空、能量、物质和宇宙等观念提出了全新认识。从超统一场论的视角,粒子物理标准模型中的所有轻子和夸克作为物质基本组元被统一为局域纠缠量子比特旋量场, 所有基本相互作用由非齐次超自旋规范对称性相应的规范相互作用支配。
吴岳良表示,把宇宙视作为由量子信息动力学自发演化的超级量子计算机,为自然界基本构造块和基本相互作用提供量子信息动力学的认识和理解,探讨信息、物质、能量和时空相统一的动力学描述,无论对基础物理研究还是量子计算机发展都将有着深刻的启示。
科学计算对系统的需求仍然在持续增长。同时智能计算对系统的需求也在快速增加。现在科学智能计算走入AI for Science,将在更多的领域实现赋能,大幅提升计算性能。
国防科技大学教授、博士生导师卢锡城表示,为进一步提升计算性能,应针对应用特点,并结合客观条件对体系结构进行优化设计,综合技术、工艺、成本等因素创新体系结构,实现软硬件协同,目标就是要均衡配置,更好地实现异构加速。瞄准高性能与易使用两大用户的基础性要求,产业界应不断提升自主创新能力,充分吸收以往的成功经验,精诚合作,实现软件与硬件协同创新。
为了提升计算效率,首先要有一个好的算法,然后还要有好的机器,只有实现算法与机器协同,才能实现性能的优化。北京应用物理与计算数学研究所研究员徐小文指出,稀疏线性代数解法器是科学工程计算与工业仿真领域很多应用软件的基础共性组件,也是主要的性能瓶颈。解法器的效率与健壮性是实际应用中最值得关注的两个问题。徐小文表示,复杂场景的多样性和动态演化特征将给这两个方面带来严峻挑战。而要解决问题,关键是如何实现算法空间与特征空间的映射。报告提出了一类特征修正算法框架,并以实际应用中的典型算法为例,深入探讨了具有自动适配能力的智能解法器。从发展趋势看,智能解法器在给定应用场景和机器的情况下,能够自动实现“特征-算法-优化”三个空间的最优映射。
人工智能引领新一轮工业革命,大模型技术成为驱动本轮浪潮的关键支撑。对于用户而言,高效、便捷且可靠的算力服务是实现大模型训练和推理的核心需求。然而,用户在使用算力服务时面临着多种挑战,包括高昂的成本、复杂的操作流程、资源分配的不均衡,以及对大模型训练特征的不熟悉等。正如北京并行科技股份有限公司董事长陈健所说,从用户视角来看,算力服务和算网服务的质量、效率和易用性才是关键。因此,算力服务提供商需要从用户需求出发,围绕业务的应用运行特征,提供多样化的算力选型方案和解决方案。
来源:环球Tech