摘要:2025 年8月7日,恰逢开放计算技术大会开幕,立秋的北京酷热难耐,仍然无法阻止全球ICT、智算从业者,以及不少想用好AI的企业前来参会的热情。人潮涌动的展厅,座无虚席的会场,说明各个行业都有不少落地AI的困惑与问题,迫切渴望寻找解决之法。
2025 年8月7日,恰逢开放计算技术大会开幕,立秋的北京酷热难耐,仍然无法阻止全球ICT、智算从业者,以及不少想用好AI的企业前来参会的热情。人潮涌动的展厅,座无虚席的会场,说明各个行业都有不少落地AI的困惑与问题,迫切渴望寻找解决之法。
企业做AI,一定都遇到过这样的情况:
下载了开源大模型,想自己训练专有模型,但服务器显存不够,万亿参数模型的推理频繁中断,跑一次崩一次;
业务部门的同事对AI的响应时间极为敏感,多个模型及智能体协同作业时,等待时间一长就怨声载道,IT部门没少吃投诉;
听说超节点技术能解决算力问题,一打听,这东西也太贵了,部署之前还得解决液冷、高压供电、复杂互联系统之类的要求,只有巨头能玩,自家企业的现有IT设施无法上车。
如何在业务中用好开源大模型,是当下企业智能化最迫切的任务。而具备开放架构、成熟技术、稳定高效部署的超节点,成了希望所在。2025开放计算技术大会现场,浪潮信息展厅的元脑SD200超节点,就吸引了不少观众驻足。
据了解,元脑SD200超节点AI服务器是浪潮信息面向万亿参数大模型AI时代而设计,以开放设计支持64路本土GPU芯片,可单机运行超万亿参数大模型,实现多模型机内并行与智能体实时协作,采用创新多主机低延迟内存语义通信架构,64卡整机推理性能呈超线性扩展,更重要的是已实现商用部署,可高效支持企业实现多开源大模型的规模化应用。
实现AI普惠化需要开源大模型与开放超节点的协同创新。以DeepSeek、KIMI等开源大模型为基础,结合元脑SD200商用开放超节点的强大算力支撑,将产生怎样的技术倍增效应?
咱们就从这场开放计算技术大会上行业热议的话题聊起。
先进的大模型开源了,意味着所有企业都能用好AI了?没那么简单。所谓智能平权,是指不同规模的企业、组织乃至个人,都能公平获取和运用AI能力。
开源大模型的普及,确实为各类企业提供了技术底座。但许多企业在部署开源大模型时,还会面临一个共性问题:如何找到能高效承载万亿级模型的AI基础设施,让技术潜力真正落地为业务生产力?
首先,开源大模型迈向万亿级,稳定运行的前提是放得下。KIMI-K2为代表的先进开源大模型参数量达万亿规模,特别是当迈入Agentic AI(代理式AI)阶段,企业一般不会只用一个大模型。为了充分发挥不同大模型的特色优势,多个超大规模参数的大模型同时跑起来,产生的KV Cache超过了传统多卡服务器的承载极限,实时交互时往往因内存溢出导致任务中断。如何解决这个问题?
本次开放计算技术大会上,业内讨论了scale out(横向扩展)与scale up(纵向扩展)两条技术路线,共识是:超节点通过scale up在单机内高密度集成计算单元,构建单一统一计算域,实现超大统一显存空间,是必然选择。
其次,AI应用不仅要能跑,还要跑得快。将多张加速卡连起来,但这还不够。传统架构中,跨节点链路过长会导致通信延迟飙升,尤其在推理场景中,几MB的小数据包高频交互,对延迟极为敏感。特别是当AI应用从训练阶段转向推理与后训练为主,海量token的实时处理需要极致的通信效率,所以scale up系统还需要解决高效通信的问题。
更关键的是,技术方案必须能落地。再好的超节点系统,如果不能被部署到企业现有设施中,不能响应实际业务需求,那也只是画饼而无法充饥。目前,企业普遍存在多品牌多批次芯片的混搭算力现状,而模型在异构算力平台间迁移困难的问题,正成为AI落地的主要障碍。而开放架构的超节点,可以兼容多元算力芯片,让企业原来的IT投资不浪费,掌握选择权,并通过开源软件生态,支持模型的快速迁移与AI应用的敏捷上线。
所以,能落地的开放超节点,也就和开源大模型一起,成为智能平权的两大基本要素,让企业真正实现“技术平权、智能平权”。
回应最终用户的所想所要,才是企业级市场真正需要的超节点,而以应用导向、客户需求来研发,才能构成对市场的正向引导。客观来看,市面上成熟可商用的开放超节点,并不多见。所以,元脑SD200在此次大会上让大家格外关注。
那么,打造开放超节点,究竟存在什么难点呢?
基于开放架构的超节点,为开源大模型的规模化落地和应用创新提供支撑,二者协同才能真正突破算法与算力的双重壁垒。这个理想很丰满,但把开放超节点从理念转化为成熟可商用的产品,并非易事。
首要挑战就是构建大规模、高集成度的Scale Up系统,Scale out技术比较成熟,实现起来更简单。而Scale Up的复杂度更高,以前的一些成熟技术和管理软件也不够用,需要针对性地开发。
其次,便是工程化的问题。芯片的跨距离传输会受到光模块的影响,故障率和功耗都会影响传输性能。铜缆又有连接极限,怎么在有限的空间内堆积更多的计算芯片,需要创新的架构设计和工程实践。
显然,要把开放超节点带进现实,必须得系统性创新。因此,元脑SD200率先闯过重重难关,为行业提供了有益的实践参考。具体是怎么做的?
第一步,开放架构,构建AI可用的算力底座。
基于OCM(开放算力模组)+OAM(开放加速模块)融合架构,元脑SD200实现多元算力芯片兼容,单机可集成64路本土GPU芯片,满足万亿规模大模型运行的算力需求。采用3D Mesh开放架构,实现8倍显存扩增,单机可提供4TB显存与64TB内存,支持1.2万亿参数Kimi K2模型的流畅推理。这种模块化设计支持灵活扩展,解决了传统架构在部署成本、扩展难度和长期运维上的痛点,显著降低开源大模型的落地门槛。
第二步,软硬协同,实现AI好用的性能优化。
软件在超节点复杂的系统当中,发挥着非常重要的作用。元脑SD200通过智能总线管理,实现64卡全局最优路由自动创建,支持多拓扑灵活切换与资源按需分配。结合预填充-解码(Prefill-Decoder)分离推理框架,系统实现软硬件深度协同,智能化调度复杂AI计算任务。
软硬协同的创新设计,实现了性能的超线性扩展,让元脑SD200在大模型场景中展示出非常好的性能表现,比如,满机运行DeepSeek R1全参模型推理性能超线性提升比为3.7倍,满机运行Kimi K2全参模型推理性能超线性提升比为1.7倍。说明超节点并不是堆更多卡就够了,还要有软硬协同、系统优化,才能拉开差距。
第三步,产业链整合,打造AI易用的成熟方案。
据了解,元脑SD200采用了很多开源开放的技术,作为系统级厂商,浪潮信息牵引产业链上下游开展协同创新。比如,元脑SD200原生支持PyTorch、TensorFlow等主流框架,确保本土顶级开源模型的无缝迁移与Day0快速上线。其高效风冷散热设计无需改造现有机房,成熟度与稳定性优势显著,可以灵活部署到企业已有的数据中心机房里,快速上线业务。
这种系统性创新使元脑SD200成为开放超节点的标杆产品。万亿级模型也放得下、跑得快、能落地,元脑SD200的成功闯关,把智能平权从口号变成了可触摸的现实,让业内看到了开放超节点的可行性。
今年一月,OpenAI CEO山姆・奥特曼坦言在开源问题上“OpenAI可能站错了历史的一边”,中国的DeepSeek、通义千问等开源模型迅速崛起,特朗普政府呼吁美国AI 开发商更多开源技术……
这些2025年的AI产业新变化,可以汇总出一个清晰的趋势:通过开源开放,让AI成为全社会的生产力工具,实现智能平权,是技术演进与产业发展的必然选择。
但开源大模型爆发式增长的同时,大模型落地的算力门槛,却让不少企业只能望“智”兴叹。
这时候,浪潮信息以元脑SD200开放超节点为支点,将开放架构与开源模型深度耦合,正站在历史前进的方向上。
为什么浪潮信息会成为开放超节点的破局者?打造成熟可商用的开放超节点,要求企业具备横跨硬件架构、软件栈优化、生态协同的系统级能力。元脑SD200从芯片互连到应用调度的全栈创新,正是系统级厂商独有的技术壁垒。
更关键的是系统级厂商的产业链整合能力。
浪潮信息副总经理赵帅表示,以应用为导向,以系统为核心,聚焦系统架构的创新,在当前的成本和应用性能约束的条件下,思考怎么为用户创造更大的价值,这是最佳的突破路径。
他提到,后续浪潮信息也会持续超节点架构的开放战略,通过技术共享促进产业链协同创新,加速超节点技术的产业化进程。随着产业生态的成熟和市场选择的多元化,企业将获得更优化的技术方案选择:既能够满足高性能计算需求,又能实现更合理的成本。这一开放策略将有效降低技术应用门槛,推动AI基础设施的规模化普及。
当更多企业加入超节点应用阵营,智算产业的市场蛋糕将持续做大,整个产业链也将在规模效应中共享增长价值。
不难发现,开放的生态活力,最终会反哺系统级厂商自身。通过开放架构,浪潮信息的技术壁垒与标准壁垒,有望构建起长期优势,在全球市场获得更大竞争力,打开广阔商业空间。
以开源开放牵引产业链升级,进击全球智算市场,中国智算企业正站在历史前进的方向上——这或许是开放计算技术大会和元脑SD200超节点,带给我们的终极启示。
这条智能平权之路,值得中国智算产业链全力以赴。
声明:个人原创,仅供参考
来源:大力财经