摘要:高通AI200推出一款专为机架级AI推理设计的解决方案,旨在提供低拥有总成本(TCO)和优化的性能,用于大型语言和多模态模型(LLM、LMM)推理和其他AI工作负载。每张卡支持768GB的LPDDR内存,以实现更高的内存容量和更低的成本。
10月27日消息,高通公司今日发布其新一代数据中心AI推理优化解决方案:基于高通AI200和AI250芯片的加速卡和机架。
高通AI200推出一款专为机架级AI推理设计的解决方案,旨在提供低拥有总成本(TCO)和优化的性能,用于大型语言和多模态模型(LLM、LMM)推理和其他AI工作负载。每张卡支持768GB的LPDDR内存,以实现更高的内存容量和更低的成本。
高通AI250解决方案将采用基于近内存计算(near-memory computing)的创新内存架构,通过提供超过10倍的内存带宽提升和降低功耗,为AI推理工作负载带来更高的效率与性能。
这两种机架解决方案均采用直接液冷技术以提高散热效率,支持PCIe扩展、以太网扩展、机密计算以保障AI工作负载安全,以及160 kW的机架级功耗。
高通的超大规模AI软件栈,从应用层到系统软件层覆盖端到端,专为AI推理进行了优化。该栈支持领先的机器学习(ML)框架、推理引擎、生成式AI框架,以及LLM/LMM推理优化技术(如解耦合服务)。开发者可借助高通技术的Efficient Transformers Library和高通AI推理套件,实现模型的平滑上载和Hugging Face模型的一键部署。高通的软件提供即用型AI应用和代理、全面的工具、库、API和服务,用于AI的运营。
截至发文,高通公司股价大涨20%。
高通技术公司高级副总裁兼技术规划、边缘解决方案和数据中心总经理 Durga Malladi 表示:“凭借 Qualcomm AI200 和 AI250,我们正在重新定义机架级 AI 推理的可能性。这些创新的全新 AI 基础设施解决方案使客户能够以前所未有的总体拥有成本 (TCO) 部署生成式 AI,同时保持现代数据中心所需的灵活性和安全性。我们丰富的软件栈和开放的生态系统支持,使开发者和企业能够比以往更轻松地在我们优化的 AI 推理解决方案上集成、管理和扩展已训练的 AI 模型。凭借与领先 AI 框架的无缝兼容性和一键式模型部署,Qualcomm AI200 和 AI250 旨在实现无缝应用和快速创新。”
高通表示,其超大规模级AI软件栈,端到端覆盖从应用层到系统软件层,并针对AI推理进行了优化。该栈支持领先的机器学习 (ML) 框架、推理引擎、生成式AI框架以及 LLM/LMM 推理优化技术(例如分解式服务)。开发者可以通过Qualcomm Technologies的Efficient Transformers Library和Qualcomm AI推理套件,享受无缝模型导入和 Hugging Face 模型的一键部署。高通的软件提供即用型AI应用程序和代理,以及全面的工具、库、API和服务,助力AI落地。
不过,高通已经宣布,Qualcomm AI200和AI250预计将分别于2026年和2027年实现商用。高通还承诺,致力于制定数据中心路线图,每年更新一次,专注于实现业界领先的AI推理性能、能效和业界领先的TCO。
来源:电子技术应用
