摘要:毫无疑问,在当今智能化浪潮的推动下,AI大模型正凭借其强大的处理能力,深刻重塑众多行业的发展路径。然而,随着数据流量爆发式增长、新型应用持续涌现,以及网络性能需求的不断提升,同样也对传统网络架构带来了前所未有的挑战。
毫无疑问,在当今智能化浪潮的推动下,AI大模型正凭借其强大的处理能力,深刻重塑众多行业的发展路径。然而,随着数据流量爆发式增长、新型应用持续涌现,以及网络性能需求的不断提升,同样也对传统网络架构带来了前所未有的挑战。
具体而言,单次大模型训练任务往往需完成数百TB级别的数据传输与交换,使得传统网络已难以支撑其高效通信需求;同时,AI工作负载呈现显著的突发性和动态特征,要求网络具备实时智能调度能力;此外,从集中式训练到分布式推理的多样化场景,也对网络的可靠性与灵活性提出了更高标准。可以说,未来的网络不仅需要“高速”,更要“聪明”和“可靠”。
在此背景下,联想依托“一横五纵”AI基础设施战略布局,在关键一纵“数据网络”产品线上持续发力。近期,联想问天数据网络产品线就迎来全面升级,重磅推出面向智算中心层、数据中心层及园区网络层的全新产品和方案,全面构建了面向未来的新一代数据网络体系。
这不仅仅是一次简单的产品或方案的迭代升级,更是联想基于软硬一体化的全栈能力,所实现的一次系统性的创新突破,由此不但能够为行业用户提供强大的网络硬件性能,更从根本上解决智算网络中“部署难、运维难、优化难”的三大核心挑战,其最终目标,是让千行百业的客户能够像使用水电一样,简单地获取和高效地使用庞大的AI算力集群,真正实现智能算力的普惠与赋能。
01.
问天全面升级,
构筑AI算力时代的硬核实力
据了解,本次联想问天数据网络产品线的升级,核心聚焦于高性能网络硬件,致力于为不同业务场景构建高速、稳定的网络连接基石,具体来看:
首先,在智算中心领域,人工智能、机器学习、高性能计算和分布式存储等应用的快速发展,正推动数据中心网络向400G/800G升级。为应对这一趋势,联想问天NE8770-64QC交换机“应运而生”,该产品是专为高端数据中心及AIGC智算场景设计的高性能、高密度盒式交换设备,可满足下一代智算基础设施对高速互联与大规模数据处理的迫切需求。
联想问天NE8770-64QC交换机采用先进硬件架构,提供64个400G端口,支持全线速转发,并配备冗余电源与风扇,在可靠性和扩展性方面表现卓越。其在4U高度内实现64个400G端口的集成,支持二级组网最大2K端口、三级组网最大8K端口规模,满足AI、HPC及分布式存储等高带宽应用需求。
在关键功能方面,联想问天NE8770-64QC交换机具备AI-Fabric增强能力,支持RALB与AILB负载均衡,缓解ECMP哈希不均,提升AIGC训练效率;支持RoCEv2一键部署,可自动化配置PFC、ECN等参数,构建无损低时延RDMA网络;采用2+2电源冗余与7+1风扇冗余设计,结合BFD、GR等高可用技术,保障业务连续性和系统稳定。
在运维管理方面,联想问天NE8770-64QC交换机支持AI ECN自动调优、RoCE网络遥测、拥塞与丢包分析及流量可视化功能,实现精准运维与快速故障定位。同时全面支持IPv4/IPv6双栈及多层交换,提供丰富路由协议与隧道功能,支持CLI、SNMP、Telemetry等多种管理方式,具备安全加密与流量镜像分析能力。
其次,在数据中心领域,最新推出的联想问天NE9770G-4C交换机,是面向数据中心及DCI互联的新一代国产核心交换机,其采用CLOS正交交换架构与零背板直连设计,降低信号传输损耗,支持向400G/800G平滑演进,基于CLOS多级交换架构,实现转发与控制平面分离,确保全线速无阻塞交换。
联想问天NE9770G-4C交换机支持144个40/100GE或192个10GE端口全线速转发,单机最大提供144个100G端口。同时支持16M VXLAN网段和EVPN协议,可快速构建Overlay网络,实现大二层灵活扩展。采用关键部件全冗余设计,支持N+M备份与热插拔,提供BFD毫秒级故障检测与多层次安全机制,保障网络高可用性;节能方面,联想问天NE9770G-4C采用了直通风道设计和智能温控技术,配备高效电源模块(转换效率94%)及无PHY芯片设计,前面板开孔率达60%,整体能耗显著优化,可靠性提升20%以上。
最后,在园区网络领域,联想问天NE7550G-8C交换机是面向融合网络的多业务核心交换机,集园区网与数据中心特性于一体,适用于多种应用场景。支持IPv4/IPv6及VSU虚拟化技术,可将多台设备虚拟化为单一逻辑设备,简化网络结构,提升运维效率,且采用CLOS多级交换架构,确保全线速无阻塞转发。
除此之外,联想问天NE7550G-8C交换机支持热补丁、BFD毫秒级故障检测(
值得一提的是,在AI技术迅猛发展的当下,构建高效、稳定且易于部署的算力基础设施已成为企业智能化转型的关键。为此,联想也推出了万全AI一体机网络方案,以“开箱即用”的集成化交付模式,为行业客户提供了一条迈向AI应用的快速通道。
该方案针对不同AI应用场景,提供了高度适配的硬件配置。大模型训练搭载联想问天WA7880a G3服务器,适配昆仑芯P800等加速卡,支撑千亿参数训练;训推一体采用联想问天WA5480 G3服务器,支持天数天垓150、摩尔S4000等加速卡,实现高效训推协同;云端推理基于联想问天WR5220 G3服务器,兼容主流推理卡,应对高并发需求。
除了多元化的算力支撑,方案还融合了先进的网络与存储技术,其支持InfiniBand和RoCEv2网络协议,提供100G、200G及400G等多档带宽,为分布式训练与大规模集群构建低延迟、高吞吐的网络环境;存储方面,整合DXN分布式存储、DM/DG系列与DSS-G100/G200等解决方案,全面满足AI业务对数据读写速度与可靠性的严苛要求。
可以说,联想万全AI一体机网络方案,以高度集成、稳定可靠和高效易用的特点,赋能科研机构与企业用户快速部署AI应用,大幅降低从开发到投产的复杂性与时间成本,真正实现“开箱即用”的智能算力体验。
截至目前,联想已构建起覆盖多场景的数据网络产品与解决方案体系,能够为千行百业客户打造高效、智能、可靠的网络基础设施。
其中,在园区网络方面,依托创新的“极简光网络”技术,联想显著降低了布线复杂度与运维成本,助力企业构建绿色节能、智能运维的现代化园区网络环境;在数据中心领域,基于“超融合/云网络”架构,联想打造出弹性可扩展、敏捷可靠的数据中心网络,为企业的业务云化提供坚实基础,加速云端迁移与应用创新;在AI/HPC 解决方案方面,联想可提供从10G到400G的超高速网络互联能力,全面支持人工智能和高性能计算应用对高带宽、低延迟的数据传输需求,充分释放智能算力潜能。
除此之外,在物流仓储无线场景中,联想引入新一代“Wi-Fi 7”技术,实现高吞吐、低时延、多接入的无线网络覆盖,全面提升智慧物流与仓储管理的自动化水平和响应效率;在业务入云-分支互联方案中,通过“SD-WAN”技术,也能实现企业总部、分支与云资源之间安全、智能、高效的互联互通,提供一站式云端接入与组网服务,助力企业轻松迈向云网融合新时代。
不难看出,联想问天数据网络产品线的此次全面升级,集中展现了联想在智算网络领域深厚的技术积淀,通过打造高性能、高可靠的网络产品与方案,联想不仅强化了自身在网络市场中的竞争力,也为构建面向AI时代的高质量网络底座、赋能千行百业奠定了坚实基础。
02.
智能运维体系,
让AI算力网络更稳定更高效
如果说强大的网络硬件产品是支撑AI算力的“躯体”,那么智能的运维体系便是赋予其持续生命力的“大脑”。 为此,联想也推出智算网络管理软件并对万全异构智算平台进行升级,致力于从运维自动化和性能优化层面,系统性地提升AI算力基础设施的稳定性和效率。
联想智算网络管理软件以“简部署、快交付、易运维”三大特点为核心,显著提升了智算集群的运维与交付效率。
在“简部署、快交付”方面,传统AI集群——尤其是千卡规模的RoCE网络部署——往往极为复杂且耗时。通常交付人员需依赖专家经验,手动逐台配置交换机中的复杂RoCE参数(如ECN/PFC水线),再通过反复手工打流测试进行调优。该过程常持续一至两周,才能获得相对理想的配置,整体效率低下,且高度依赖人力经验。
面对这一痛点,联想通过“三个自动化”重塑交付流程,实现了“1日验收交付上线”的重大突破,包括设备自动上线,设备上电后通过DHCP自动注册至管理平台,实现“零配置”接入。平台自动完成基础配置与版本分发,将数百台设备的初始化时间从“天”缩短至“小时”;RoCE一键部署,平台内置专家经验库,预置多型号交换机的最佳水线参数。用户只需选择策略,即可一键批量下发,大幅降低部署门槛与技术依赖;而在自动验收测试方面,平台可自动调度测试服务器,执行RDMA性能及NCCL通信测试,并行尝试多组参数并生成对比报告,全程无需人工干预,一夜之内完成全面验收。
在“易运维”方面,联想倡导“运维始于预见,优于预防”。为此,基于Telemetry技术,平台也实现了秒级网络遥测,覆盖以往难以触及的细粒度数据。例如,在网络侧,不仅监控端口流量,更深入追踪每队列Buffer占用、ECN标记报文数、PFC触发状态等,实时评估AI业务所需网络服务质量;在服务器侧,实时采集GPU、网卡、CPU等多项指标,并与网络数据关联,构建真正的端到端可视化;而在业务流分析方面,则可以清晰呈现GPU卡间通信路径与实时“路况”,精准识别网络拥塞或GPU自身慢节点等瓶颈。
与此同时,面对故障时,传统系统往往产生海量告警,增加排查难度。联想智算网络管理软件也基于知识图谱技术,自动挖掘告警间的关联关系,可在分钟级定位根因,清晰展示传播路径与影响范围,从而实现从被动“救火”到主动“防火”的运维模式转变。
可以看到,联想的这套智能运维体系不仅是技术工具的升级,更是运维理念的重大革新,它将高度依赖“老师傅”的“手艺活”转型为可规模化、标准化复制的“工业化流程”,为AI算力的真正普惠奠定坚实基础。
当然,除了构建新一代智算中心运维体系,为应对多元AI算力芯片带来的基础设施异构化挑战,联想万全异构智算平台在今年实现了全面升级。全新的联想万全异构智算平台3.0特别针对多样化GPU型号、机内互联拓扑以及复杂网络架构,推出了联想自研集合通信库LCCL(Lenovo CCL),其核心优势主要体现在以下几个方面:
第一,节点内拓扑感知优化方面,针对不同机型采用了差异化优化机制。如针对PCIe机型,使用CPU-Reduce技术,利用CPU(如AMX加速器)充当参数服务器,避免跨NUMA访问的性能瓶颈;针对NVLink机型,采用N-Tree而非Ring算法进行消息收发,提升效率,并降低通信开销;而针对H800等NVLink带宽受限的机型,创新性地同时利用NVLink和PCIe(Multi-Path)进行通信,有效提升带宽利用率。
第二,节点间拓扑感知优化方面,重点提升跨节点通信的效率和稳定性。包括采用节点-集群分层通信,基于节点内互连性能远高于节点间的特点,将节点作为集群通信的端点,充分释放节点间互联带宽;链路预分配,针对AI通信流量相对规律的特征,提前预分配互联链路资源,减少拥塞发生,优化长尾延迟;主动探测方面,则是通过CPU/GPU周期性地收发探测报文,实时监测链路质量,评估备用路径,并支持动态切换,保障通信可靠性。
第三,针对大模型训练优化方面,联想也通过多项核心技术对通信与计算过程进行了系统优化。如采用多路径传输机制充分利用NVLink、多个PCIe通道及CPU内存资源,构建多条并发数据传输路径,显著提升聚合带宽与通信可靠性;GPU数据拷贝优化方面,通过改进GPU间数据拷贝机制,有效提升带宽利用率,降低拷贝开销,释放更多算力资源用于模型训练任务。此外,机内拓扑优化方面,则是基于实际硬件连接拓扑,智能调度GPU间通信路径,充分挖掘NVLink等高速互连的带宽潜力,避免链路拥塞。
不仅如此,在自适应通信方面,平台还能根据每次规约运算的数据量大小,动态选择最优通信算法与传输路径,确保不同规模数据均能获得最佳通信性能;而在计算-通信重叠方面,借助ZeRO-DP等分布式训练框架,将Reduce-Scatter与反向计算、Allgather与前向计算重叠执行,有效隐藏通信延迟。该优化在PCIe或跨节点通信等带宽受限场景中效果尤为显著,可大幅提升整体训练效率。
由此可见,无论是面向智能运维推出的联想智算网络管理软件,还是联想万全异构智算平台在网络能力上的深度调优,其背后都体现出联想不止于提供网络数据传输的“管道”,而是致力于从智能运维与底层通信两个核心层面系统发力,推动AI算力基础设施发挥出极致性能,这背后也标志着联想数据网络产品线成功实现了从提供单一网络硬件设备,到交付智能运维与全局性能优化系统能力的关键跨越。
当然,这一系列创新,最终目标都是为了降低企业应用AI的技术门槛与总拥有成本,推动AI算力迈向高效、普惠的“极速时代”,为千行百业的智能化转型提供更强大、更易用和更可靠的坚实网络底座。
从这个意义上说,联想正在铺设的,是一条让智能算力畅通无阻的“高速网络”,这张以“软硬一体”能力织就的网络,已成为千行百业迈向智能化未来的关键“通行证”,其价值可谓:“不止于当下,更关乎未来。
来源:申耀的科技观察