cuda编程

舍弃CUDA编程！CMU等用几十行代码将LLM编译成巨型内核，推理延迟可降6.7倍

机器之心报道编辑：杜伟在 AI 领域，英伟达开发的 CUDA 是驱动大语言模型（LLM）训练和推理的核心计算引擎。不过，CUDA 驱动的 LLM 推理面临着手动优化成本高、端到端延迟高等不足，需要进一步优化或者寻找更高效的替代方案。近日，CMU 助理教授贾志豪