摘要:高性能计算是利用超级计算机实现并行计算的一门技术。通过使用大量通用型计算节点搭建阵列式计算集群,替代单体超级计算机的方式,来实现并行计算加速,已成为高性能计算的通用方案。
高性能计算是利用超级计算机实现并行计算的一门技术。通过使用大量通用型计算节点搭建阵列式计算集群,替代单体超级计算机的方式,来实现并行计算加速,已成为高性能计算的通用方案。
经过多年发展,高性能计算已成为各个领域解决复杂计算和进行大规模数据分析的技术底座,如 汽车和航天行业通过空气动力模拟来提升燃油效率、能源行业通过分析地震和地质数据来实现石油勘探、医药行业通过药物筛选和蛋白质结构模拟来加速新药研发、气象行业通过卫星 雷达和探空数据进行计算模拟来预测气候。
近年来人工智能和机器学习迎来了爆炸式发展。DeepMind的科学家开发了能够准确预测蛋白质结构的人工智能工具 AlphaFold,利用AI技术实现了蛋白质合成后从无规则的多肽链自发形成的特定三维结构的精准预测。中国科学技术大学教授研发出数据智能驱动的"机器化学家",通过人工智能完成高通量合成、表征、测试的化学实验全流程,实现了高熵非贵金属析氧反应催化剂的高效创制。
通过人工智能技术来助力和加速科学研究,即AI for Science已成为一种新型的科学研究范式。而AI底层基础设施依赖于高性能计算HPC技术,用于提升AI模型训练和推理速度。
我们可以大胆预测,未来会有越来越多的基础科学研究基于AI+高性能计算的技术来开展。但是对于从事AI的企业和开发者而言,HPC并不是一个能够简易获得、上手即用的方便设施,这里存在着极大地运维和学习成本。
传统的HPC平台
传统的HPC平台基于物理机或云主机,在此之上安装Slurm或PBS调度器实现集群管理和资源监控。对于新入局科学研究行业的企业和开发者、以及AI科学家而言,使用传统高性能计算平台可能会存在诸多问题:
(1)建设成本高
需要采购高主频硬件、RDMA网络和高性能存储;
需要专业的IT运维搭建控制面、数据面、登录节点;
(2)复杂的集群运维
调度组件维护和升级;
SSH用户的文件权限管理;
适应业务动态调整集群资源分区;
存储服务磁盘容量监控、扩容;
用户作业配额管理;
(3)运行任务有一定学习门槛
作业提交的交互和非交互模式;
作业调度脚本语法;
调度器常用命令、参数;
(4)弹性能力差
集群满载时,新加入资源从采购到加入集群需要较长时间;
扩容的资源在集群负载不高时闲置,造成资源浪费;
除此之外,容器、微服务、声明式API构成的云原生基础设施,已成为构建AI应用的主流架构。主流人工智能平台和开源的AI框架/套件(如 Tensorflow、Pytorch、Paddlepaddle)支持部署至Kubernetes环境,提升AI模型开发、训练、推理效率。而传统的高性能计算平台目前仍缺乏对云原生底层设施灵活适配的方案和快速扩展的能力。
新一代HPC平台
京东云高性能计算HPC平台致力于降低企业基础设施建设和运维成本,使用户聚焦于高性能计算作业本身,低门槛快速使用平台能力。并且兼顾新型科学研究和AI开发场景,以普惠的方式对外提供高性能计算HPC能力。
兼容物理机、云主机等各类基础设施,支持对用户IDC存量物理节点进行利旧。在此之上构建统一资源管理的调度平台,并最终以产品化交互的方式,对外提供超算作业运行能力。
与传统的HPC平台相比,新一代的HPC平台具备种种优势:
(1)降低运维和财务成本
基于云的高性能集群,无需用户进行基础设施的搭建和运维;秒级弹性,一键快速加入集群,扩充计算资源;集群长时间空闲时快速释放云上资源,降低成本;(2)细粒度权限管控
底层资源使用者不可见不可登录,保障租户安全性;基于RBAC的权限管理,企业人员变动快速更新权限、停用账户;(3)低门槛快速使用
用户无需编写作业脚本,仅需控制台提交作业运行程序,可视化声明资源需求即可运行作业;适配云原生开发环境,支持通过容器镜像运行作业;平台集成镜像管理和文件管理能力,制品、算例文件、结果文件在平台内闭环管理;(4)丰富的预置软件
平台预置数十款基础科学研究常用的高性能计算软件,用户可直接基于模板软件进行科学计算(部分商业化软件需用户额外购买授权),加速输出计算结果。
(5)成本观测和资源优化
平台精准跟踪记录用户每一次高性能计算运行所消耗的资源,集群管理者可针对性的进行用户维度的配额限制。
过程中的资源监控辅助研发、运维人员观测单任务运行过程实际的资源占用情况,与任务初始分配值对比,优化任务对资源的申领,避免任务申请资源闲置而新任务无法调度。
京东云高性能计算HPC平台以其简易操作的平台体验和云上丰富的弹性资源,为企业和个人开发者在高性能计算任务场景带来了灵活性和便利性。在AI+基础科学的新趋势下,助力企业降本增效。
来源:京东云开发者