摘要:在当今数据驱动的世界中,高性能计算(HPC)、人工智能(AI)和现代数据中心都需要超高速、低延迟的网络。InfiniBand和以太网是两种主流技术,它们各自拥有不同的优势、架构和用例。了解这些差异对于为工作负载选择合适的网络至关重要。
在当今数据驱动的世界中,高性能计算(HPC)、人工智能(AI)和现代数据中心都需要超高速、低延迟的网络。InfiniBand和以太网是两种主流技术,它们各自拥有不同的优势、架构和用例。了解这些差异对于为工作负载选择合适的网络至关重要。
作为互联技术,InfiniBand与以太网各有特点和差异,难以一概而论孰优孰劣,它们在不同的应用领域不断发展演进,已成为网络世界中不可或缺的两种互联技术。
InfiniBand作为一种网络互联技术,凭借其高可靠、低延迟、高带宽等特点,在超级计算机集群中得到广泛应用,也是GPU服务器的首选网络互联技术。
InfiniBand采用分层架构。物理层通过高速串行连接建立点对点链路。数据链路层处理数据包的发送和接收,而网络层则支持QoS、虚拟化和远程直接内存访问(RDMA)。这种结构使得InfiniBand即使在高负载下也能保持高效率和可预测的性能。
InfiniBand持续演进,致力于提升速度、降低延迟并增强网络内计算能力。诸如SHARP(可扩展分层聚合和缩减协议)之类的创新技术可直接在网络设备内执行数据聚合和缩减,从而减少数据移动并加速集体运算。凭借持续的进步(例如HDR200G、NDR400G和XDR800G),InfiniBand仍然是下一代超级计算机和大规模HPC基础设施的理想之选。
以太网是使用最广泛的局域网通信协议。以太网的核心是IEEE802.3标准,该标准凭借其低成本、易用性和互操作性,已成为各种应用场景的热门选择。它通过铜线或光纤连接局域网中的设备,支持有线和无线部署,并涵盖快速以太网、千兆以太网、万兆以太网和交换以太网等类型。
以太网使用帧在物理介质(例如双绞线铜缆或光纤)上传输数据。设备通过MAC地址进行通信,而交换机则在网络内高效地引导流量。以太网支持点对点和交换式拓扑,可实现无缝集成和直接扩展。
以太网已从传统的TCP/IP发展到RoCE(融合以太网上的远程直接内存访问)等先进技术,以降低延迟并提高效率。在人工智能、云和大数据的推动下,以太网已从快速和千兆速度发展到10G、25G、40G、100G、400G和800G速度。现代以太网还注重无损传输和拥塞控制,超级以太网联盟(UEA)等倡议正在推动创新,以进一步提升性能。这些进步使以太网成为InfiniBand等专用互连技术的强劲竞争对手。
高性能计算场景下集群数据传输的瓶颈,正是InfiniBand最初的设计目标。而以太网的设计初衷,是作为一种通用且广泛兼容的网络技术,面向企业、云和数据中心环境。因此,InfiniBand与以太网存在诸多差异,主要体现在带宽、延迟、网络可靠性、网络技术以及应用场景等方面。
InfiniBand采用交换结构架构,可实现点对点连接,并最大程度降低延迟。其拓扑结构(通常为胖树或环面)针对HPC和AI集群进行了优化,支持RDMA实现高效的数据传输。InfiniBand的精简设计使其在延迟敏感的环境中占据优势。以太网采用分层架构构建,支持星型或网状等多种拓扑结构。
网络带宽自InfiniBand诞生以来,InfiniBand网络的发展长期快于以太网,主要原因是InfiniBand应用于高性能计算中服务器之间的互连,降低了CPU的负载。而以太网更面向终端设备互连,对带宽的要求不是太高。
对于超过10G的高速网络流量,如果全部解包,会消耗大量的资源。第一代SDRInfiniBand运行速率为10Gbps,除了可以提升数据传输带宽、降低CPU负载外,还可以通过高速网络传输来减轻CPU的负担,提高网络利用率。
在网络延迟方面,InfiniBand和以太网的表现也截然不同。以太网交换机通常采用存储转发和MAC表查找寻址作为网络传输模型中的第2层技术。以太网交换机的处理流程比InfiniBand交换机更长,因为必须考虑IP、MPLS和QinQ等复杂服务。
另一方面,对于InfiniBand交换机来说,二层处理非常简单。仅剩16位LID可以用来查找转发路径信息。同时,利用Cut-Through技术,转发延迟显著降低至100纳秒以下,速度远超以太网交换机。
由于丢包和重传对高性能计算的整体性能有显著的影响,因此需要一种高可靠的网络协议,从机制层面保证网络的无损特性,实现其高可靠性特性。
InfiniBand拥有其自身定义的第1层到第4层格式,是一个完整的网络协议。端到端流量控制是InfiniBand网络数据包发送和接收的基础,从而实现无损网络。以太网传统上是一个有损网络,但凭借PFC(优先级流量控制)、ECN(显式拥塞通知)和RoCEv2等功能,以太网已转变为无损网络结构。如今的以太网可以提供高带宽、低延迟和接近零的数据包丢失率。
以太网以其可扩展性和与现有基础设施的兼容性而闻名。其广泛的应用和成熟的标准使其更易于在各种环境中集成和管理。InfiniBand虽然功能强大,但扩展起来可能更具挑战性,并且可能需要专门的硬件和软件,从而限制了其灵活性。
成本和部署复杂性InfiniBand硬件价格昂贵,部署需要专业知识。升级通常取决于供应商,这会增加总体拥有成本。相比之下,以太网更具成本效益,更易于部署,并且支持灵活的多供应商升级,这解释了它在主流数据中心的普及程度。
安全与管理InfiniBand专为高性能计算而设计,其原生安全性和管理功能有限,依赖于子网管理器和专用工具。以太网经过数十年在企业网络中的发展,提供了强大的安全协议和成熟的管理框架。
应用场景InfiniBand非常适合大规模AI训练集群、HPC环境以及需要极低延迟和高吞吐量的应用。例如深度学习模型训练、实时数据处理和复杂的模拟。
以太网通常用于企业网络、互联网接入和家庭网络,这些领域主要关注成本和部署便利性。借助RoCE技术,以太网也适用于AI/ML集群、分布式AI应用以及基于云的AI服务。
InfiniBand和以太网在高性能计算和数据中心环境中各有独特优势。随着人工智能的快速发展和数据中心工作负载的指数级增长,网络技术正被推向新的极限。长期以来,InfiniBand凭借其超低延迟和高带宽优势在传统HPC环境中占据主导地位,而以太网则快速发展,以满足现代人工智能集群和大型数据中心的严苛要求。400G/800G以太网和RoCEv2等创新极大地提升了以太网的性能,使其成为AI工作负载的理想替代方案。据预测,以太网交换机市场规模近年来稳步增长,预计将从2024年的54.4亿美元增长到2025年的56.4亿美元,年复合增长率(CAGR)为3.7%。
来源:千家智客