铠侠与英伟达合作开发XL-Flash SSD，速度是现有SSD的3倍

摘要：铠侠宣布，计划通过一款新型固态硬盘（SSD）彻底改变存储行业的现状。这款SSD的目标是在小块工作负载中实现超过1000万次/秒的输入/输出操作（IOPS），这比许多现代SSD的峰值速度快了整整3倍。此外，铠侠的“AI SSD”计划于2026年下半年发布，并将与

铠侠宣布，计划通过一款新型固态硬盘（SSD）彻底改变存储行业的现状。这款SSD的目标是在小块工作负载中实现超过1000万次/秒的输入/输出操作（IOPS），这比许多现代SSD的峰值速度快了整整3倍。此外，铠侠的“AI SSD”计划于2026年下半年发布，并将与英伟达合作开发。

现代AI服务器的一个主要性能瓶颈是存储和GPU之间的数据传输。目前，数据传输主要由CPU完成，这显著增加了延迟并延长了访问时间。

为了达到这一性能目标，铠侠正在设计一款全新的控制器，专门优化以实现超过1000万次512字节IOPS的性能，从而让GPU能够以足够快的速度访问数据，确保其核心始终保持100%的利用率。这款新型“AI SSD”将采用铠侠的单级单元（SLC）XL-Flash存储器，其读取延迟仅为3-5微秒，远低于传统3D NAND SSD的40到100微秒延迟。此外，SLC存储器通过每个单元存储一位数据，提供了更快的访问时间和更高的耐久性，这对于AI工作负载至关重要。

当前，高端数据中心固态硬盘（SSD）通常在4K和512字节随机读取操作中能够达到200万到300万IOPS。从带宽角度来看，使用4K数据块是合理的，而512字节数据块则不然。然而，大型语言模型（LLM）和检索增强型生成（RAG）系统通常会进行小块、随机的访问，以获取嵌入向量、参数或知识库条目。在这些场景中，512字节这样的小块大小比4K或更大的数据块更能体现实际应用的行为。因此，使用512字节数据块在延迟方面更能满足LLM和RAG系统的需求，并且可以通过使用多个驱动器来满足带宽需求。此外，使用更小的数据块还可以更高效地利用内存语义进行访问。

值得注意的是，铠侠并未透露其“AI SSD”将采用哪种主机接口，尽管从带宽角度来看，似乎并不需要PCIe 6.0接口。

铠侠的“AI SSD”还将针对GPU和SSD之间的点对点通信进行优化，绕过CPU以实现更高的性能和更低的延迟。铠侠（以及英伟达）计划使用512字节数据块的另一个原因是，GPU通常在内部以32、64或128字节的缓存行操作，并且其内存子系统针对许多小的、独立的内存位置的突发访问进行了优化，以始终保持所有流处理器的忙碌状态。因此，512字节读取与GPU设计更匹配。

铠侠的“AI SSD”旨在支持需要快速、重复访问大型数据集的大型语言模型（LLM）的AI训练设置。此外，铠侠还计划将其部署在AI推理应用中，特别是在采用检索增强生成技术以实时数据增强生成式AI输出的系统中（例如，用于推理）。对于这些机器来说，低延迟、高带宽的存储访问至关重要，以确保低响应时间和高效的GPU利用率。

来源：CHIP奇谱

标签：英伟达 ssd llm 开发数据块

本文地址：http://news.43b.com.cn/a/555661.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐