摘要:铠侠宣布,计划通过一款新型固态硬盘(SSD)彻底改变存储行业的现状。这款SSD的目标是在小块工作负载中实现超过1000万次/秒的输入/输出操作(IOPS),这比许多现代SSD的峰值速度快了整整3倍。此外,铠侠的“AI SSD”计划于2026年下半年发布,并将与
铠侠宣布,计划通过一款新型固态硬盘(SSD)彻底改变存储行业的现状。这款SSD的目标是在小块工作负载中实现超过1000万次/秒的输入/输出操作(IOPS),这比许多现代SSD的峰值速度快了整整3倍。此外,铠侠的“AI SSD”计划于2026年下半年发布,并将与英伟达合作开发。
现代AI服务器的一个主要性能瓶颈是存储和GPU之间的数据传输。目前,数据传输主要由CPU完成,这显著增加了延迟并延长了访问时间。
为了达到这一性能目标,铠侠正在设计一款全新的控制器,专门优化以实现超过1000万次512字节IOPS的性能,从而让GPU能够以足够快的速度访问数据,确保其核心始终保持100%的利用率。这款新型“AI SSD”将采用铠侠的单级单元(SLC)XL-Flash存储器,其读取延迟仅为3-5微秒,远低于传统3D NAND SSD的40到100微秒延迟。此外,SLC存储器通过每个单元存储一位数据,提供了更快的访问时间和更高的耐久性,这对于AI工作负载至关重要。
当前,高端数据中心固态硬盘(SSD)通常在4K和512字节随机读取操作中能够达到200万到300万IOPS。从带宽角度来看,使用4K数据块是合理的,而512字节数据块则不然。然而,大型语言模型(LLM)和检索增强型生成(RAG)系统通常会进行小块、随机的访问,以获取嵌入向量、参数或知识库条目。在这些场景中,512字节这样的小块大小比4K或更大的数据块更能体现实际应用的行为。因此,使用512字节数据块在延迟方面更能满足LLM和RAG系统的需求,并且可以通过使用多个驱动器来满足带宽需求。此外,使用更小的数据块还可以更高效地利用内存语义进行访问。
值得注意的是,铠侠并未透露其“AI SSD”将采用哪种主机接口,尽管从带宽角度来看,似乎并不需要PCIe 6.0接口。
铠侠的“AI SSD”还将针对GPU和SSD之间的点对点通信进行优化,绕过CPU以实现更高的性能和更低的延迟。铠侠(以及英伟达)计划使用512字节数据块的另一个原因是,GPU通常在内部以32、64或128字节的缓存行操作,并且其内存子系统针对许多小的、独立的内存位置的突发访问进行了优化,以始终保持所有流处理器的忙碌状态。因此,512字节读取与GPU设计更匹配。
铠侠的“AI SSD”旨在支持需要快速、重复访问大型数据集的大型语言模型(LLM)的AI训练设置。此外,铠侠还计划将其部署在AI推理应用中,特别是在采用检索增强生成技术以实时数据增强生成式AI输出的系统中(例如,用于推理)。对于这些机器来说,低延迟、高带宽的存储访问至关重要,以确保低响应时间和高效的GPU利用率。
来源:CHIP奇谱