摘要:随着以ChatGPT为代表的生成式AI席卷全球,大模型已经成为推动技术创新的关键驱动力。无论是自然语言处理中的GPT系列、BERT等预训练模型,还是计算机视觉领域的ViT和SWIN Transformer,这些模型的参数量往往以数十亿甚至数万亿计,对计算资源的
科技云报到原创。
从古代的算盘到如今的超级计算机,人类计算能力的承载形式在不断演化。
随着以ChatGPT为代表的生成式AI席卷全球,大模型已经成为推动技术创新的关键驱动力。无论是自然语言处理中的GPT系列、BERT等预训练模型,还是计算机视觉领域的ViT和SWIN Transformer,这些模型的参数量往往以数十亿甚至数万亿计,对计算资源的需求呈指数级增长。
面对如此巨大的算力需求,企业如何在平衡算力与能耗开支的前提下,高效地利用和管理算力资源,是实现降本增效的重要命题。这其中,对算力基础设施和软件平台的精细化运营管理成为破题的关键。
全球AI持续井喷 大模型与智算共振
超大基础模型的训练需要多项关键技术作为支撑,其中算力、算法和数据被喻为驱动人工智能向前的“三驾马车”。
自生成式人工智能服务(AIGC)和GPT大模型训练爆火后,围绕算力、算法和数据相关的讨论此起彼伏,国产大模型应用更是呈现出“千模大战”的状态。
众所周知,大模型是一项“烧钱”的业务,而“烧钱”的最主要原因由于大模型的计算复杂度很高,每次训练都需要使用大量的算力来进行计算和推理。
根据阿伯丁大学、MIT等机构的研究者对算力需求的研究发现,在2010年之前训练所需的算力增长符合摩尔定律,大约每20个月翻一番。自2010年初深度学习问世以来,训练所需的算力快速增长,大约每6个月翻一番。2015年末,随着大规模机器学习模型的出现,训练算力的需求提高了10到100倍,出现了一种新的趋势。
根据OpenAI公开数据推测,如果按照每秒1000万亿次的计算,每次模型训练需3640天的计算能力,且全球AI训练所用的计算量,平均每3.43个月便会翻一番,算力需求的指数级增长曲线将更加陡峭。
大模型对算力的需求是显而易见的,但更关键的点可能在于能否把算力更高效地挖掘出来。在不同的阶段,企业对于算力需求也不尽相同。在训练阶段,企业对算力的追求可能是“大”,这一方面能够做出更大的模型,另一方面也能够进行更快速的迭代。但到用户开始接受这个效果的时候,就要涉及到怎样做才能更划算的问题,也就是说在部署阶段,可能要更关注“精”的问题,尽可能用相对少的算力实现最大程度的作用。
与算力需求一路高歌猛进形成鲜明对比的是,当前在算力使用上仍面临许多挑战,存在着利用率低、混合算力协同调度难等问题。《中国算力发展观察报告》显示,有些算力中心整体算力利用率不足30%,大量的算力资源在沉睡中等待被唤醒,算力供需矛盾凸显。
在此背景下,如何汲取硬件资源提供的每一滴能力、加速模型的训练速度成为行业首要考虑的问题。为此,智能算力作为新型算力服务模式的重要性愈加突显,其不仅可以实现算力资源的最优利用,还能够灵活地适应不同业务场景的需求,提高整体效率。
当前,人工智能技术在多模态感知、决策规划、自主控制等多个特定领域突破,向更开放的通用场景加速融合,以创造能在复杂、多元开放环境中不断重构的超级智能算力场景。这种演进使智能算力变得不可或缺,且不再局限于简单的算力叠加或升级,而是在多元重构驱动下实现算力的极致拓展与跃迁。
智能算力作为新型基础设施,已是万千行业智能化变革的核心驱动力,智算服务由此也将成为重要的IT基础服务,将重塑整个IT基础设施领域的市场格局。根据IDC预测,中国智算服务市场2023-2028年复合增长率达56.2%,这反映出中国智算服务市场的巨大潜力。
智算服务市场未来增长潜力一方面在于智能算力供给提升背景下,智算中心加码建设,基于其配套的智算服务也将迎来发展基础。另一方面,生成式AI正从单模态向多模态升级、从训练向推理落地、从通用向垂直行业渗透,智算服务需求尤其是生成式AI IaaS的服务需求也将不断高增。
2024年出现一个明显的转折,随着国内互联网大厂在算力基础设方面资本支出的不断增加,云时代的数据中心已经基本消化完毕,或者无法满足现有的智能算力要求,而新购买的大量智能算力设备又需要放到拥有更大规模绿色电力供应和更大规模机柜的智算中心里,这也在很大程度上刺激了2024年以来国内智算中心的建设热潮。
据IDC圈不完全统计,截至2024年11月20日,中国智算中心项目已经达到634个,大规模集群数量也不断增加。
2025年,大模型将继续向生产场景深度渗透。在这一过程中,大模型尤其是垂类大模型应用的发展,对智算中心提出了更高要求,精细化、绿色化是智算算力高质量发展的必然方向,投建逻辑将进入服务为主的2.0时代。
全栈智算新引擎 软硬协同一站式按需服务
如果将大模型的运行环境比喻成一幢房屋,那么这幢房屋的居住品质直接关系到大模型的运行效率。
谈到居住品质,必然涉及到其中的装修质量。通常,装修分为三步:基装、硬装、软装。
“基装”就像盖房子打地基一样,是装修的第一步,包括了房屋结构的改造、水电改造、墙面处理等,让房子“骨骼”更结实,为后续的装修打下坚实基础。
“硬装”是基装之上的进一步施工,涉及到房屋的固定装饰,比如地板、墙面砖、天花板、橱柜等,决定了房屋的风格,是装修中的中坚力量。
“软装”是装修中的点睛之笔,包括了家具、窗帘、床品、装饰品等物品,展现房屋的品味。
总体来说,基装要牢固,硬装要风格统一,软装要个性鲜明,切换到智算领域亦是如此。
在2024世界互联网大会期间,宁畅在业内首次创新性地提出了“精装算力”概念,并引发媒体和行业的热议解读。所谓“精装算力”,就是依托宁畅定制化与全栈全液能力,以算力栈为交付形态,从用户需求与体验出发,提供全体系软硬协同的精细化算力服务。
这一概念的提出,也让宁畅成为了“智算领域装修公司”,通过提供从基装、硬装到软装的一站式全栈智算服务,满足不同行业客户对算力服务的需求,加速业务效率。
从概念来看,“定制化”和“全栈全液”可以视为宁畅的两大“基装”能力基石。定制化方面,宁畅围绕用户实际应用场景和算力需要,可以为用户定制对应各种算力需求的解决方案,方案完整覆盖用户交付、部署、应用、运维体验和业务需求,本身就涵盖了硬件、软件平台搭建、算法模型优化、应用场景定制等内容,最终实现算力资源不浪费、使用成本更节省。
在大模型复杂的训练过程中,软硬件的全盘适配至关重要,宁畅的“全栈全液”AI基础设施解决方案便是基于这一思路打造。宁畅将场景、业务、中台再到硬件资源的能力进行全面整合,全面满足大模型对于计算、网络、存储等全面需求。作为业内少数能够实现“全栈全液”的智算基础设施方案,该方案不仅涵盖了从底层硬件到上层软件的全方位支持,还通过全液冷技术的应用,帮助智算中心实现高效与绿色并行。
基于坚实的底座能力,宁畅为客户提供符合需求的“硬装”和“软装”智算服务。从“硬装”层面,算力、存储、网络这类基础设施要标准规范、布局合理、节能低碳,做到对硬件设施的管理省时省钱。
一直以来,硬件都是宁畅擅长并且专业的部分,产品体系覆盖云边端全场景,涵盖通用、人工智能、高密度、存储、整机柜等多种类型服务器,及AI工作站等边端产品,可实现多种交付形态灵活组合。为兼顾绿色低碳,宁畅依托液冷领域的诸多首创性先进技术,提供全时全域液冷方案,不论是液冷服务器,还是液冷基础设施产品应有俱有,可以完全满足不同业务场景的算力建设需求。
在服务器方面,宁畅突破性实现标准化、可移植、大解耦全冷板液冷服务器技术,冷板形式覆盖CPU、内存、硬盘、GPU、各种形态PCIe设备以及PSU等服务器内全部散热单元,实现了无风扇形态的原生全液冷服务器。
在智算中心方面,宁畅提供了液冷、风冷或风液混冷等多种定制化建设方案,可以根据实际需求,灵活选择最适合的散热方式,从而有效控制能耗。同时,还确保了芯片在长时间高负载运行下的性能稳定输出,为大模型的训练和推理提供了坚实的支撑。
在“软装”层面,宁畅提供从集群、算子再到模型软件优化的全局服务和涵盖算存网管用全体系优化。也就是说从算力集群环境搭建,到AI开发算力调度,再到集群运维和算力运营,都有相对应的软件提供支持。
NEX AIOM和NexData可将分散的硬件整合为统一的算力和存储资源池;AI Manager人工智能平台能够帮助用户实现AI开发的全链路业务覆盖;NVIDIA AI Enterprise平台可加速数据科学工作流,加速生成式AI的部署和应用,大幅度降低用户AI开发门槛;运维方面有NCenter智能运维工具集,实现全生命周期的运维管理。此外,针对大型企业级用户,SIMS算力互联云平台还可助力实现本地资源与云端资源的融合调度及统一管理,协助客户高效构建更适合自己的算力平台,让大模型的运行管理更加省心省力省时省钱,从而让客户更关注于应用层面的落地。
“精装算力”概念的提出,不仅从服务模式上缩短了企业与智算之间的路径,还帮助企业最大限度降本增效,实现了从效率到经济性的精益管理。
比如在液冷领域,宁畅原生全液冷技术,不仅液冷成本可控、运维方式与风冷无异,数据中心运行PUE值更可低至1.09,远低于业内风液混合形态冷板式服务器平均水平,致力于实现数据中心能效极致、最大限度释放冷空调电力加速算力提升。
在“增效”方面,以某三甲医院为例,在引入宁畅算力栈后,该医院的医学影像处理与分析的速度和精度得到显著提升,医学影像处理速度相较于之前提升688%,效率提升7倍,帮助医生更快地识别病变区域,提高了诊断效率。
在科研领域,某大学在宁畅算力栈助力下,不仅在物理模拟和气象预报中显著提高了运算速度,还在药物分子模拟研究中大幅缩短了计算时间,宁畅算力栈支持复杂的深度学习模型训练,加快了自然语言处理、图像识别等领域的研究进度,将计算时间最高节省了82%,科研工作效率提升20%,直接推动了科研成果的快速转化。
可以预见的是,随着人工智能技术的不断创新,算力应用场景的日益丰富,企业对高质量算力需求将会持续激增,靠不计成本、堆算卡、堆规模就期望能做好算力服务的日子已经一去不复返了。而宁畅的“精装算力”概念不仅是对智算服务的一次大胆创新,更是为企业适应未来智算时代发展的一次积极探索。
面对未来行业发展的诸多不确定性因素,宁畅这类创新型的AI基础设施服务商为大模型的持续发展提供确定性的技术支撑,让企业能够从容应对时刻变化的市场行情,不断穿越一个又一个市场周期。
【关于科技云报到】
企业级IT领域Top10新媒体。聚焦云计算、人工智能、大模型、网络安全、大数据、区块链等企业级科技领域。原创文章和视频获工信部权威认可,是世界人工智能大会、数博会、国家网安周、可信云大会与全球云计算等大型活动的官方指定传播媒体之一。
来源:科技云报到